Agent Judge؛ ارزیابی ایجنتهای طولانیافق در پروداکشن
خلاصهٔ کاملتر
بیشتر تیمها مسیر یک ایجنت رو با یک LLM judge ساده ارزیابی میکنن: کوئری کاربر، خروجی نهایی و یک rubric رو میدن و میپرسن آیا ایجنت درست رفتار کرده. اما با حرکت صنعت به سمت ایجنتهای طولانیافق، این روش شکست میخوره. یک ایجنت فروش ممکنه سرنخها رو بررسی، CRM رو بهروز و ایمیل ارسال کنه؛ یا یک ایجنت کدنویسی دهها فایل رو ویرایش و یک PR باز کنه.
LLM judge ساده به سه دلیل میلنگه: مسیرهای بلند (ایجنتهایی مثل Codex و Claude Code با فشردهسازی متن میتونن میلیونها توکن مسیر تولید کنن که در پنجرهی یک judge جا نمیشه)، اقدامات stateful (ایجنت دیتابیس و API رو تغییر میده و ارزیاب باید اثرش رو در منبع حقیقت بررسی کنه)، و رفتار متغیر (rubricی که ماه قبل کار میکرد ممکنه کهنه بشه). به بیان نویسنده، ارزیابی دیگه قضاوت پاسخ نهایی نیست، بلکه تحقیق در کل مسیره.
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات




