SFT، RL و On-Policy Distillation: نگاهی توزیعی به پستترینینگ
یه مدل زبانی اساساً یه توزیع احتمالی روی دنبالههای متنیه و پستترینینگ یعنی تغییر شکل این توزیع. SFT مدل رو به سمت یه توزیع خارجی ثابت میکشه و همین باعث میشه راحتتر دچار Catastrophic Forgetting بشه. RL بهجای توزیع هدف مشخص، مدل رو در جهت بیشترین پاداش انتظاری هدایت میکنه. On-Policy Distillation ترکیبی از هر دوست و نتایج آزمایشها نشون میده که منبع داده (نمونهگیری آنلاین) مهمتر از کیفیت مدل معلمه.
این محتوا بهصورت خودکار با استفاده از هوش مصنوعی تولید شده است. بررسی نهایی آن پیش از استفاده توصیه میشود و مسئولیت استفاده از آن بهعهده کاربر است. برای مطالعه متن اصلی خبر، اینجا را کلیک کنید
خلاصهٔ کاملتر
یه مدل زبانی رو میشه به عنوان یه توزیع احتمالی روی دنبالههای متنی در نظر گرفت. وقتی پستترینینگ میکنیم، داریم شکل این توزیع رو عوض میکنیم. سه روش اصلی — SFT، RL و On-Policy Distillation — این کار رو به شیوههای کاملاً متفاوتی انجام میدن.
SFT (Supervised Fine-Tuning) سادهترین حالته: یه دیتاست آماده داریم (از انسان یا مدل قویتر) و مدل رو با cross-entropy به سمت توزیع اون دیتاست میکشیم. مشکل اینجاست که چون توزیع شروع مدل در این فرآیند اهمیتی نداره، اگه دیتاست خیلی دور از توزیع اولیه مدل باشه، مدل راحت چیزهایی که قبلاً بلد بوده رو فراموش میکنه — پدیدهای که بهش Catastrophic Forgetting میگن. با این حال SFT برای وقتی که باید فرمت خروجی رو کلاً عوض کرد، عالیه.
خلاصهٔ کاملتر این خبر رو میتونی با داشتن اشتراک ویژه بخونی!
اشتراک رایگان
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات
اشتراک ویژه
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات




