‏Agent Judge؛ ارزیابی ایجنت‌های طولانی‌افق در پروداکشن

۲۳ خرداد

این مقاله توضیح می‌ده چرا ارزیابی ایجنت‌های طولانی‌افق با یک LLM judge ساده شکست می‌خوره: مسیرها (trajectory) بلندن و در پنجره‌ی متن judge جا نمی‌شن، اقدامات stateful رو نمی‌شه راستی‌آزمایی کرد، و rubricها کهنه می‌شن. راه‌حل، Agent Judge است؛ یک هارنس ارزیابی ایجنتی با سه قابلیت جست‌وجو، راستی‌آزمایی و تطبیق. در آزمون تشخیص توهم، با rubric پالایش‌شده به دقت ۰.۸۶ رسید، بالاتر از Claude Code، Codex و LLM judgeها.

این محتوا به‌صورت خودکار با استفاده از هوش مصنوعی تولید شده است. بررسی نهایی آن پیش از استفاده توصیه می‌شود و مسئولیت استفاده از آن به‌عهده کاربر است. برای مطالعه متن اصلی خبر،اینجا را کلیک کنید

خلاصهٔ کامل‌تر

بیشتر تیم‌ها مسیر یک ایجنت رو با یک LLM judge ساده ارزیابی می‌کنن: کوئری کاربر، خروجی نهایی و یک rubric رو می‌دن و می‌پرسن آیا ایجنت درست رفتار کرده. اما با حرکت صنعت به سمت ایجنت‌های طولانی‌افق، این روش شکست می‌خوره. یک ایجنت فروش ممکنه سرنخ‌ها رو بررسی، CRM رو به‌روز و ایمیل ارسال کنه؛ یا یک ایجنت کدنویسی ده‌ها فایل رو ویرایش و یک PR باز کنه.

LLM judge ساده به سه دلیل می‌لنگه: مسیرهای بلند (ایجنت‌هایی مثل Codex و Claude Code با فشرده‌سازی متن می‌تونن میلیون‌ها توکن مسیر تولید کنن که در پنجره‌ی یک judge جا نمی‌شه)، اقدامات stateful (ایجنت دیتابیس و API رو تغییر می‌ده و ارزیاب باید اثرش رو در منبع حقیقت بررسی کنه)، و رفتار متغیر (rubricی که ماه قبل کار می‌کرد ممکنه کهنه بشه). به بیان نویسنده، ارزیابی دیگه قضاوت پاسخ نهایی نیست، بلکه تحقیق در کل مسیره.

خلاصهٔ کامل‌تر این خبر رو می‌تونی با داشتن اشتراک ویژه بخونی!

اشتراک رایگان

دسترسی به خلاصهٔ کوتاه خبر
دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
ارسال اخبار مورد علاقه به ایمیل شما
ارسال اخبار مورد علاقه به تلگرام شما
عدم نمایش تبلیغات

اشتراک ویژه

دسترسی به خلاصهٔ کوتاه خبر
دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
ارسال اخبار مورد علاقه به ایمیل شما
ارسال اخبار مورد علاقه به تلگرام شما
عدم نمایش تبلیغات

ارتقا به اشتراک ویژه

منبع: TLDR AI — https://www.judgmentlabs.ai/blogs/agent-judge-solving-long-context-evaluations

اشتراک‌گذاری:

خلاصهٔ کامل‌تر

اخبار مرتبط