ProEval: ارزیابی هوش مصنوعی با هزینهای ۱۰۰ برابر کمتر
ProEval یه فریمورک متنباز از DeepMind هست که هزینه ارزیابی مدلهای GenAI رو تا ۱۰۰ برابر کاهش میده. این ابزار با استفاده از surrogate های مبتنی بر Gaussian Process، نرخ خطای مدل رو تنها با یک درصد از دادهها با دقت ±۱٪ تخمین میزنه. علاوه بر این، ProEval بهصورت فعالانه الگوهای شکست مدل رو شناسایی میکنه و اطلاعات ارزشمندی برای بهبود توسعه AI فراهم میآره. روی بنچمارکهای معروفی مثل GSM8K، MMLU و StrategyQA هم اعتبارسنجی شده.
این محتوا بهصورت خودکار با استفاده از هوش مصنوعی تولید شده است. بررسی نهایی آن پیش از استفاده توصیه میشود و مسئولیت استفاده از آن بهعهده کاربر است. برای مطالعه متن اصلی خبر،اینجا را کلیک کنید




