‏امنیت عامل‌های هوش مصنوعی: درس‌هایی که Anthropic به سختی یاد گرفت

۲۳ خرداد

Anthropic در مقاله‌ای فنی، چالش‌های امنیتی عامل‌های هوش مصنوعی رو در سه محصول claude.ai، Claude Code و Claude Cowork بررسی کرده. اصلی‌ترین درس اینه که محدودکردن محیط اجرا (containment) از نظارت رفتاری مدل مطمئن‌تره. چند حادثه واقعی مثل فیشینگ کارمند و نشت داده از طریق دامنه مجاز نشون می‌ده حتی sandbox‌های قوی هم می‌تونن شکست بخورن. ابزارهای امنیتی آزموده‌شده مثل hypervisor و gVisor پایدار موندن، اما کدهای سفارشی‌ساخته‌شده بیشترین نقطه‌ضعف رو داشتن.

این محتوا به‌صورت خودکار با استفاده از هوش مصنوعی تولید شده است. بررسی نهایی آن پیش از استفاده توصیه می‌شود و مسئولیت استفاده از آن به‌عهده کاربر است. برای مطالعه متن اصلی خبر،اینجا را کلیک کنید

خلاصهٔ کامل‌تر

Anthropic یه مقاله مفصل فنی منتشر کرده درباره اینکه چطور سه محصول اصلی‌شون رو در برابر حملات و رفتارهای ناخواسته عامل‌های هوش مصنوعی ایمن کردن. نقطه شروع جالبه: یه سال پیش دسترسی Claude به زیرساخت‌های داخلی Anthropic غیرقابل‌قبول به نظر می‌رسید، ولی الان روتین شده. سؤال اصلی اینه که اگه یه چیزی اشتباه بره، چقدر خسارت می‌زنه — یعنی چطور «شعاع انفجار» رو محدود کنیم.

دو رویکرد کلی وجود داره: نظارت انسانی (human-in-the-loop) و محدودسازی محیط (containment). تجربه نشون داده که نظارت انسانی به‌تنهایی کافی نیست؛ داده‌های Anthropic می‌گه کاربران تقریباً ۹۳٪ از درخواست‌های تأیید رو بدون توجه قبول می‌کنن و با گذشت زمان کمتر دقت می‌کنن. بنابراین تمرکز اصلی روی containment رفته: sandbox، ماشین مجازی، و کنترل ترافیک خروجی.

خلاصهٔ کامل‌تر این خبر رو می‌تونی با داشتن اشتراک ویژه بخونی!

اشتراک رایگان

دسترسی به خلاصهٔ کوتاه خبر
دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
ارسال اخبار مورد علاقه به ایمیل شما
ارسال اخبار مورد علاقه به تلگرام شما
عدم نمایش تبلیغات

اشتراک ویژه

دسترسی به خلاصهٔ کوتاه خبر
دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
ارسال اخبار مورد علاقه به ایمیل شما
ارسال اخبار مورد علاقه به تلگرام شما
عدم نمایش تبلیغات

ارتقا به اشتراک ویژه

منبع: TLDR AI — https://www.anthropic.com/engineering/how-we-contain-claude

اشتراک‌گذاری:

خلاصهٔ کامل‌تر

اخبار مرتبط