‏DeepSWE: بنچمارک واقع‌بین‌تر برای ارزیابی ایجنت‌های کدنویسی

۲۰ خرداد

DeepSWE یک بنچمارک تازه برای ارزیابی ایجنت‌های کدنویسی‌ه که روی ۱۱۳ تسک در ۹۱ ریپازیتوری و ۵ زبان برنامه‌نویسی کار می‌کنه. برخلاف SWE-bench، تسک‌هاش از صفر نوشته شدن، یعنی خبری از دیتا لیک نیست. وریفایرهای دست‌ساز DeepSWE نرخ خطای ۱.۴٪ دارن، در مقابل ۳۲٪ اشتباه SWE-Bench Pro. لیدربورد نشون می‌ده gpt-5.5 با ۷۰٪ جلوتر از بقیه‌ست، درحالی‌که همین مدل‌ها روی بنچمارک‌های قبلی فاصله‌ی کمتری داشتن.

این محتوا به‌صورت خودکار با استفاده از هوش مصنوعی تولید شده است. بررسی نهایی آن پیش از استفاده توصیه می‌شود و مسئولیت استفاده از آن به‌عهده کاربر است. برای مطالعه متن اصلی خبر،اینجا را کلیک کنید

خلاصهٔ کامل‌تر

DeepSWE یک بنچمارک تازه برای سنجش توانایی ایجنت‌های کدنویسی در کارهای بلندمدت و پیچیده‌ست. ایده‌ی اصلی اینه که بنچمارک‌های موجود مثل SWE-Bench Pro مشکلات جدی دارن: تسک‌ها از کامیت‌های عمومی گرفته شدن (خطر آلودگی دیتا)، وریفایرهاشون اشتباه می‌کنن، و اکثر مدل‌های فرانتیر روشون خیلی به هم نزدیک به نظر می‌رسن.

DeepSWE با چهار ویژگی اساسی این مشکلات رو حل می‌کنه: تسک‌ها از صفر نوشته شدن (نه از PR یا کامیت موجود)، ۹۱ ریپازیتوری مختلف در پنج زبان TypeScript، Go، Python، JavaScript و Rust رو پوشش می‌ده، راه‌حل‌ها به‌طور میانگین ۶۶۸ خط کد نیاز دارن (در مقابل ۱۲۰ خط SWE-Bench Pro)، و وریفایرها به‌جای جزئیات پیاده‌سازی، رفتار قابل مشاهده سیستم رو تست می‌کنن.

خلاصهٔ کامل‌تر این خبر رو می‌تونی با داشتن اشتراک ویژه بخونی!

اشتراک رایگان

دسترسی به خلاصهٔ کوتاه خبر
دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
ارسال اخبار مورد علاقه به ایمیل شما
ارسال اخبار مورد علاقه به تلگرام شما
عدم نمایش تبلیغات

اشتراک ویژه

دسترسی به خلاصهٔ کوتاه خبر
دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
ارسال اخبار مورد علاقه به ایمیل شما
ارسال اخبار مورد علاقه به تلگرام شما
عدم نمایش تبلیغات

ارتقا به اشتراک ویژه

منبع: TLDR AI — https://deepswe.datacurve.ai/blog

اشتراک‌گذاری:

خلاصهٔ کامل‌تر

اخبار مرتبط