HRM-Text: پیشآموزش مدل زبانی با هزار دلار
HRM-Text یه مدل تولید متن ۱ میلیارد پارامتریه که با معماری HRM ساخته شده و هدفش اینه که پیشآموزش مدلهای پایه رو برای همه در دسترس کنه. این مدل با ۱۳۰ تا ۶۰۰ برابر محاسبات کمتر و ۱۵۰ تا ۹۰۰ برابر داده کمتر نسبت به روشهای معمول آموزش میبینه. نسخه ۰.۶ میلیارد پارامتری با ۸ عدد GPU مدل H100 در حدود ۸۰۰ دلار قابل اجراست.
این محتوا بهصورت خودکار با استفاده از هوش مصنوعی تولید شده است. بررسی نهایی آن پیش از استفاده توصیه میشود و مسئولیت استفاده از آن بهعهده کاربر است. برای مطالعه متن اصلی خبر،اینجا را کلیک کنید
خلاصهٔ کاملتر
HRM-Text یه مدل زبانی ۱ میلیارد پارامتریه که روی معماری HRM (سلسلهمراتب بازگشتی) بنا شده. مشکلی که حل میکنه خیلی مهمه: پیشآموزش مدلهای پایه (foundation models) تا حالا به منابع محاسباتی سنگینی نیاز داشت که فقط شرکتهای بزرگ بهش دسترسی داشتن. HRM-Text این مانع رو با کاهش ۱۳۰ تا ۶۰۰ برابری نیاز محاسباتی و ۱۵۰ تا ۹۰۰ برابری نیاز به داده از سر راه برمیداره.
دو سایز برای آموزش وجود داره: نسخه L با ۰.۶ میلیارد پارامتر که روی ۸ عدد H100 در حدود ۵۰ ساعت (~۸۰۰ دلار) آموزش میبینه، و نسخه XL با ۱ میلیارد پارامتر که به ۱۶ عدد H100 روی دو نود نیاز داره و حدود ۴۶ ساعت (~۱۴۷۲ دلار) طول میکشه. قیمتها بر اساس نرخ ۲ دلار در ساعت برای هر H100 محاسبه شده.
خلاصهٔ کاملتر این خبر رو میتونی با داشتن اشتراک ویژه بخونی!
اشتراک رایگان
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات
اشتراک ویژه
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات




