ARFBench: بنچمارک جدید Datadog برای سنجش هوش مصنوعی در تحلیل متریکها
Datadog بنچمارک ARFBench رو معرفی کرده؛ مجموعهای از ۷۵۰ سوال-جواب واقعی برای سنجش توانایی مدلهای هوش مصنوعی در تحلیل متریکهای observability. بهترین مدل موجود یعنی GPT-5 فقط ۶۲.۷٪ دقت داشته، در حالی که متخصصان انسانی عملکرد بهتری دارن. Datadog همچنین مدل ترکیبی Toto-1.0-QA-Experimental رو معرفی کرده که در شناسایی ناهنجاریها از همه مدلهای موجود جلوتره.
این محتوا بهصورت خودکار با استفاده از هوش مصنوعی تولید شده است. بررسی نهایی آن پیش از استفاده توصیه میشود و مسئولیت استفاده از آن بهعهده کاربر است. برای مطالعه متن اصلی خبر،اینجا را کلیک کنید
خلاصهٔ کاملتر
هر سال بیش از یه تریلیون دلار به خاطر خرابی سیستمهای نرمافزاری از بین میره. وقتی یه سرویس دچار مشکل میشه، مهندسان باید سریع علت رو پیدا کنن — و یکی از مهمترین ابزارهاشون، تحلیل متریکهای observability یا همون دادههای سری زمانیه که وضعیت سلامت سیستم رو نشون میده. Datadog حالا یه بنچمارک جدید به اسم ARFBench (Anomaly Reasoning Framework Benchmark) معرفی کرده که مستقیماً از حوادث واقعی داخلی این شرکت گرفته شده.




