SFT، RL و On-Policy Distillation: نگاهی توزیعی به پستترینینگ
یه مدل زبانی اساساً یه توزیع احتمالی روی دنبالههای متنیه و پستترینینگ یعنی تغییر شکل این توزیع. SFT مدل رو به سمت یه توزیع خارجی ثابت میکشه و همین باعث میشه راحتتر دچار Catastrophic Forgetting بشه. RL بهجای توزیع هدف مشخص، مدل رو در جهت بیشترین پاداش انتظاری هدایت میکنه. On-Policy Distillation ترکیبی از هر دوست و نتایج آزمایشها نشون میده که منبع داده (نمونهگیری آنلاین) مهمتر از کیفیت مدل معلمه.
این محتوا بهصورت خودکار با استفاده از هوش مصنوعی تولید شده است. بررسی نهایی آن پیش از استفاده توصیه میشود و مسئولیت استفاده از آن بهعهده کاربر است. برای مطالعه متن اصلی خبر،اینجا را کلیک کنید




