DeepSWE: بنچمارک واقعبینتر برای ارزیابی ایجنتهای کدنویسی
DeepSWE یک بنچمارک تازه برای ارزیابی ایجنتهای کدنویسیه که روی ۱۱۳ تسک در ۹۱ ریپازیتوری و ۵ زبان برنامهنویسی کار میکنه. برخلاف SWE-bench، تسکهاش از صفر نوشته شدن، یعنی خبری از دیتا لیک نیست. وریفایرهای دستساز DeepSWE نرخ خطای ۱.۴٪ دارن، در مقابل ۳۲٪ اشتباه SWE-Bench Pro. لیدربورد نشون میده gpt-5.5 با ۷۰٪ جلوتر از بقیهست، درحالیکه همین مدلها روی بنچمارکهای قبلی فاصلهی کمتری داشتن.
این محتوا بهصورت خودکار با استفاده از هوش مصنوعی تولید شده است. بررسی نهایی آن پیش از استفاده توصیه میشود و مسئولیت استفاده از آن بهعهده کاربر است. برای مطالعه متن اصلی خبر،اینجا را کلیک کنید
خلاصهٔ کاملتر
DeepSWE یک بنچمارک تازه برای سنجش توانایی ایجنتهای کدنویسی در کارهای بلندمدت و پیچیدهست. ایدهی اصلی اینه که بنچمارکهای موجود مثل SWE-Bench Pro مشکلات جدی دارن: تسکها از کامیتهای عمومی گرفته شدن (خطر آلودگی دیتا)، وریفایرهاشون اشتباه میکنن، و اکثر مدلهای فرانتیر روشون خیلی به هم نزدیک به نظر میرسن.
DeepSWE با چهار ویژگی اساسی این مشکلات رو حل میکنه: تسکها از صفر نوشته شدن (نه از PR یا کامیت موجود)، ۹۱ ریپازیتوری مختلف در پنج زبان TypeScript، Go، Python، JavaScript و Rust رو پوشش میده، راهحلها بهطور میانگین ۶۶۸ خط کد نیاز دارن (در مقابل ۱۲۰ خط SWE-Bench Pro)، و وریفایرها بهجای جزئیات پیادهسازی، رفتار قابل مشاهده سیستم رو تست میکنن.
خلاصهٔ کاملتر این خبر رو میتونی با داشتن اشتراک ویژه بخونی!
اشتراک رایگان
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات
اشتراک ویژه
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات




