‏دلتای وزن‌ها: آموزش مدل‌های غول‌پیکر بدون کلاستر

۱۸ خرداد

در آموزش RL ناهمگام، مربی باید هر قدم کل وزن‌های مدل را به موتور استنتاج بفرسته که برای مدل‌های بزرگ تا یک ترابایت می‌شه. هاگینگ‌فیس کشف کرده بین دو قدم متوالی بیش از ۹۸٪ وزن‌های bf16 اصلاً تغییر نمی‌کنن. با فرستادن فقط عناصر تغییریافته به‌صورت فایل sparse از طریق یک باکت اشتراکی، حجم انتقال از ۱.۲ گیگابایت به ۲۰ تا ۳۵ مگابایت رسید.

این محتوا به‌صورت خودکار با استفاده از هوش مصنوعی تولید شده است. بررسی نهایی آن پیش از استفاده توصیه می‌شود و مسئولیت استفاده از آن به‌عهده کاربر است. برای مطالعه متن اصلی خبر،اینجا را کلیک کنید

خلاصهٔ کامل‌تر

یکی از گلوگاه‌های پنهان آموزش یادگیری تقویتی (RL) ناهمگام، همگام‌سازی وزن‌هاست: بعد از هر قدم بهینه‌سازی، مربی باید وزن‌های تازه را به موتور استنتاج بفرسته تا از سیاست فعلی عقب نمونه. برای یک مدل ۷ میلیاردی این یعنی ۱۴ گیگابایت و برای یک مدل یک‌تریلیونی حدود یک ترابایت، هر قدم. این انتقال روی مسیر بحرانی می‌شینه و GPU‌ها را بیکار نگه می‌داره.

نکته‌ی کلیدی اینه که لازم نیست همه‌چیز را بفرستی. بین دو قدم متوالی، تقریباً ۹۹٪ وزن‌های bf16 دقیقاً بیت‌به‌بیت یکسان می‌مونن. دلیلش ریاضیات bf16 است: این فرمت فقط ۷ بیت مانتیس داره و وقتی نرخ یادگیری RL پایینه، تغییر هر وزن از آستانه‌ی گردکردن کوچک‌تره و عملاً جذب می‌شه. پس بایت آن وزن تغییر نمی‌کنه و از دید موتور استنتاج اصلاً تکونی نخورده.

خلاصهٔ کامل‌تر این خبر رو می‌تونی با داشتن اشتراک ویژه بخونی!

اشتراک رایگان

دسترسی به خلاصهٔ کوتاه خبر
دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
ارسال اخبار مورد علاقه به ایمیل شما
ارسال اخبار مورد علاقه به تلگرام شما
عدم نمایش تبلیغات

اشتراک ویژه

دسترسی به خلاصهٔ کوتاه خبر
دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
ارسال اخبار مورد علاقه به ایمیل شما
ارسال اخبار مورد علاقه به تلگرام شما
عدم نمایش تبلیغات

ارتقا به اشتراک ویژه

منبع: https://huggingface.co/blog/delta-weight-sync

اشتراک‌گذاری:

خلاصهٔ کامل‌تر

اخبار مرتبط