مدلهای زبانی واقعاً چطوری کار میکنن؟
خلاصهٔ کاملتر
نویسنده میگه چون مدلهای زبانی مدرن بیشتر از روی هم چیدن بلوکهای ترنسفورمر ساخته میشن، اگه همین ماشینآلات ترنسفورمر رو بفهمی بیشتر راه رو رفتی. فرقِ مدلها هم بیشتر تو چیزیه که روش train شدن، مقیاس و انتخابهای پیکربندی، و post-training که روش انجام میشه. مسیر مقاله از توکن شروع میشه: مدل خودِ متن رو نمیخونه، بلکه عددهای صحیح میخونه. tokenizer یه رشته رو به دنبالهای از عددها تبدیل میکنه که هرکدوم به یه ورودی تو یه واژگان ثابت اشاره میکنه و معمولاً هم توکنها کلمهی کامل نیستن، بلکه تکههای زیرکلمهایان.
بعد نوبت embedding هست. یه ID مثل 1024 بهتنهایی معنی نداره؛ معنیش از یه جدول بزرگ به اسم ماتریس embedding میاد که بهازای هر ورودی واژگان یه ردیف داره و هر ردیف یه بردار بلنده. خاصیت جالبش اینه که توکنهای از نظر معنایی شبیه، بردارهای نزدیک به هم پیدا میکنن؛ مثلاً بردار «king» نزدیک «queen» میشه و حتی حسابوکتاب روش گاهی جواب میده، مثل king − man + woman ≈ queen. ولی این بردار هیچی دربارهی جای توکن تو دنباله نمیگه و اینجاست که positional encoding وارد میشه.
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات




