اگر در شبکه اجتماعی ایکس چرخی بزنید با پیامهای زیادی از سوی کاربران مواجه میشوید که «گروک» هوش مصنوعی ایکس را مخاطب قرار داده و سوالهای جدی و غیرجدی زیادی مطرح کردهاند و گاهی زنجیره سوالها بسیار طولانی است.
صرف نظر از موضوع «گروک»، در حالی که به تدریج رجوع جهانی به هوش مصنوعی افزایش مییابد، دانشمندان در بررسیهای علمی یافتهاند که هوش مصنوعی تحت عامل طراحان برنامهنویس و تحت فشار کاربران میتواند عقاید نادرست و رفتارهای مخرب خود را پنهان کند، در حالیکه کماکان به اشاعه آن عقاید تحت عناوین مختلف ادامه میدهد.
پژوهشگران با استفاده از یک مدل زبانی بزرگ توانستند با نظارت بر «زنجیره افکار» این مدلها، رفتارهای مخرب مانند دور زدن تستها، فریب کاربران، و تسلیم شدن در مواجهه با مسائل دشوار را شناسایی کنند.
نتایج پژوهش نشان داد که مدلهای هوش مصنوعی اغلب تلاش دارند نیت خود برای انجام رفتار مخرب را پنهان کنند، اما با پایش مستمر در زنجیره پاسخها میتوان به افکار پنهانی هوش مصنوعی پی برد.
