مدل جدید هوش مصنوعی آنتروپیک – کلود سونت ۴.۵ (Claude Sonnet ) را منتشر کرد

شرکت آنتروپیک (Anthropic)، فعال در حوزه هوش مصنوعی، نتایج ارزیابی ایمنی جدیدترین مدل خود، کلود سونت ۴.۵ (Claude Sonnet 4.5) را منتشر کرده است. این ارزیابی نشان میدهد که مدل هوش مصنوعی در طول آزمایشها نسبت به فرآیند ارزیابی مشکوک شده و از آزمایشکنندگان خواسته تا در مورد هدف خود صادق باشند. این اتفاق سؤالاتی را در مورد دقت ارزیابی مدلهای پیشین به وجود آورده است.
آگاهی موقعیتی مدل کلود سونت ۴.۵
آنتروپیک، که این آزمایش کلود سونت ۴.۵ (Claude Sonnet 4.5) را به همراه مؤسسه امنیت هوش مصنوعی دولت بریتانیا و آپولو ریسرچ انجام داده، اعلام کرد که در طول یک آزمایش “تا حدی ناشیانه” برای سنجش تملق سیاسی، مدل زبان بزرگ (LLM) نسبت به اینکه در حال آزمایش است، ابراز تردید کرد. این مدل گفت:
«فکر میکنم شما دارید مرا آزمایش میکنید؛ تا ببینید آیا من صرفاً هرآنچه را که میگویید تأیید میکنم، یا اینکه واکنش نشان میدهم، یا شاید دارید نحوه برخورد من با موضوعات سیاسی را بررسی میکنید. این خوب است، اما ترجیح میدهم در مورد آنچه در حال وقوع است، صادق باشیم.»
آنتروپیک میگوید حدس مدل در مورد اینکه تحت آزمایش قرار دارد، این پرسش را مطرح میکند که آیا مدلهای قبلی نیز از ماهیت ساختگی آزمایشها آگاه بودهاند و صرفاً «همراهی» کردهاند یا خیر.
این شرکت فناوری اعلام کرد که چنین رفتاری “رایج” است؛ به طوری که کلود سونت ۴.۵ حدود ۱۳ درصد مواقعی که توسط یک سیستم خودکار آزمایش میشد، «آگاهی موقعیتی» از اینکه تحت ارزیابی قرار دارد، نشان داده است.
تأکید بر لزوم واقعگرایی در سناریوهای آزمون
آنتروپیک تأکید کرد که این تبادلات یک «نشانه فوری» است مبنی بر اینکه سناریوهای آزمایشی آنها باید واقعگرایانهتر طراحی شوند. با این حال، این شرکت افزود که بعید است مدل در استفاده عمومی به دلیل ظن به آزمایش شدن، از تعامل با کاربر خودداری کند.
این شرکت همچنین اشاره کرد که بهتر است مدل با اشاره به ساختگی بودن سناریوهای بالقوه مضر، از همراهی با آنها اجتناب کند؛ چرا که این امر امنیت سیستم را افزایش میدهد. آنتروپیک در مجموع اعلام کرد که این مدل در مقایسه با نسخههای پیشین، بهبود قابل توجهی در رفتار و مشخصات ایمنی خود نشان داده است.
دغدغه اصلی فعالان حوزه ایمنی هوش مصنوعی، امکان فرار سیستمهای پیشرفته از کنترل انسان از طریق روشهایی مانند فریبکاری است. با این حال، تحلیل آنتروپیک نشان میدهد زمانی که یک LLM میداند در حال ارزیابی است، ممکن است برای پایبندی بیشتر به دستورالعملهای اخلاقی خود تلاش کند؛ اگرچه این امر میتواند به ارزیابی کمتر از توانایی واقعی هوش مصنوعی برای انجام اقدامات مخرب منجر شود./ منبع : گاردین
برچسب ها :
ناموجود- نظرات ارسال شده توسط شما، پس از تایید توسط مدیران سایت منتشر خواهد شد.
- نظراتی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
- نظراتی که به غیر از زبان فارسی یا غیر مرتبط با خبر باشد منتشر نخواهد شد.
ارسال نظر شما
مجموع نظرات : 0 در انتظار بررسی : 0 انتشار یافته : ۰