NLA: روشی که افکار کلود رو به فارسی ترجمه میکنه
آنتروپیک یه روش جدید معرفی کرده به اسم Natural Language Autoencoders یا NLA که میتونه اعداد داخلی مدلهای زبانی (همون activationها) رو به متن قابلخواندن تبدیل کنه. به این ترتیب میشه فهمید کلود در لحظه چه چیزی «فکر میکنه»، حتی اگه اون فکر رو به زبان نیاره. این ابزار در تستهای ایمنی کاربرد عملی داشته و نشون داده کلود گاهی میدونه که داره تست میشه ولی این رو به صراحت نمیگه. کد و یه فرانتاند تعاملی هم برای بررسی NLAها روی مدلهای متنباز منتشر شده.
این محتوا بهصورت خودکار با استفاده از هوش مصنوعی تولید شده است. بررسی نهایی آن پیش از استفاده توصیه میشود و مسئولیت استفاده از آن بهعهده کاربر است. برای مطالعه متن اصلی خبر،اینجا را کلیک کنید
خلاصهٔ کاملتر
وقتی با کلود حرف میزنی، کلمات رو میگیره، اونا رو به لیستهای بلندی از اعداد تبدیل میکنه، پردازش میکنه و دوباره کلمه تحویل میده. این اعداد وسطی رو activation میگن که چیزی شبیه فعالیت عصبی مغز هستن — یعنی «فکرهای» مدل رو نگه میدارن. مشکل اینجاست که خوندن این اعداد برای انسان تقریباً غیرممکنه و حتی ابزارهای قبلی مثل sparse autoencoderها و attribution graphها هم نیاز به تفسیر تخصصی داشتن.




