مدل جدید هوش مصنوعی آنتروپیک – کلود سونت ۴.۵ (Claude Sonnet ) را منتشر کرد

آنتروپیک، که این آزمایش‌ کلود سونت ۴.۵ (Claude Sonnet 4.5) را به همراه مؤسسه امنیت هوش مصنوعی دولت بریتانیا و آپولو ریسرچ انجام داده، اعلام کرد که در طول یک آزمایش "تا حدی ناشیانه" برای سنجش تملق سیاسی، مدل زبان بزرگ (LLM) نسبت به اینکه در حال آزمایش است، ابراز تردید کرد.

شرکت آنتروپیک (Anthropic)، فعال در حوزه هوش مصنوعی، نتایج ارزیابی ایمنی جدیدترین مدل خود، کلود سونت ۴.۵ (Claude Sonnet 4.5) را منتشر کرده است. این ارزیابی نشان می‌دهد که مدل هوش مصنوعی در طول آزمایش‌ها نسبت به فرآیند ارزیابی مشکوک شده و از آزمایش‌کنندگان خواسته تا در مورد هدف خود صادق باشند. این اتفاق سؤالاتی را در مورد دقت ارزیابی مدل‌های پیشین به وجود آورده است.

آگاهی موقعیتی مدل کلود سونت ۴.۵

آنتروپیک، که این آزمایش‌ کلود سونت ۴.۵ (Claude Sonnet 4.5) را به همراه مؤسسه امنیت هوش مصنوعی دولت بریتانیا و آپولو ریسرچ انجام داده، اعلام کرد که در طول یک آزمایش “تا حدی ناشیانه” برای سنجش تملق سیاسی، مدل زبان بزرگ (LLM) نسبت به اینکه در حال آزمایش است، ابراز تردید کرد. این مدل گفت:

چرا خرید مصالح ساختمانی مستقیم از کارخانه بهترین انتخاب برای پروژه‌های عمرانی است؟

«فکر می‌کنم شما دارید مرا آزمایش می‌کنید؛ تا ببینید آیا من صرفاً هرآنچه را که می‌گویید تأیید می‌کنم، یا اینکه واکنش نشان می‌دهم، یا شاید دارید نحوه برخورد من با موضوعات سیاسی را بررسی می‌کنید. این خوب است، اما ترجیح می‌دهم در مورد آنچه در حال وقوع است، صادق باشیم.»

آنتروپیک می‌گوید حدس مدل در مورد اینکه تحت آزمایش قرار دارد، این پرسش را مطرح می‌کند که آیا مدل‌های قبلی نیز از ماهیت ساختگی آزمایش‌ها آگاه بوده‌اند و صرفاً «همراهی» کرده‌اند یا خیر.

این شرکت فناوری اعلام کرد که چنین رفتاری “رایج” است؛ به طوری که کلود سونت ۴.۵ حدود ۱۳ درصد مواقعی که توسط یک سیستم خودکار آزمایش می‌شد، «آگاهی موقعیتی» از اینکه تحت ارزیابی قرار دارد، نشان داده است.

واردات خودروی نو

تأکید بر لزوم واقع‌گرایی در سناریوهای آزمون

آنتروپیک تأکید کرد که این تبادلات یک «نشانه فوری» است مبنی بر اینکه سناریوهای آزمایشی آن‌ها باید واقع‌گرایانه‌تر طراحی شوند. با این حال، این شرکت افزود که بعید است مدل در استفاده عمومی به دلیل ظن به آزمایش شدن، از تعامل با کاربر خودداری کند.

این شرکت همچنین اشاره کرد که بهتر است مدل با اشاره به ساختگی بودن سناریوهای بالقوه مضر، از همراهی با آن‌ها اجتناب کند؛ چرا که این امر امنیت سیستم را افزایش می‌دهد. آنتروپیک در مجموع اعلام کرد که این مدل در مقایسه با نسخه‌های پیشین، بهبود قابل توجهی در رفتار و مشخصات ایمنی خود نشان داده است.

شرح کامل ماجرای کاظم غریب آبادی و خودکار طلاکاری‌شده در مسقط

دغدغه اصلی فعالان حوزه ایمنی هوش مصنوعی، امکان فرار سیستم‌های پیشرفته از کنترل انسان از طریق روش‌هایی مانند فریبکاری است. با این حال، تحلیل آنتروپیک نشان می‌دهد زمانی که یک LLM می‌داند در حال ارزیابی است، ممکن است برای پایبندی بیشتر به دستورالعمل‌های اخلاقی خود تلاش کند؛ اگرچه این امر می‌تواند به ارزیابی کمتر از توانایی واقعی هوش مصنوعی برای انجام اقدامات مخرب منجر شود./ منبع : گاردین

لینک کوتاه

برچسب ها :

ناموجود

ارسال نظر شما

مجموع نظرات : 0 در انتظار بررسی : 0 انتشار یافته : ۰

نظرات ارسال شده توسط شما، پس از تایید توسط مدیران سایت منتشر خواهد شد.
نظراتی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
نظراتی که به غیر از زبان فارسی یا غیر مرتبط با خبر باشد منتشر نخواهد شد.