‏مدل‌های زبانی واقعاً چطوری کار می‌کنن؟

۱ تیر

نویسنده تو این مقاله بدون ریاضیات سنگین توضیح می‌ده که یه مدل زبانی مدرن از داخل چطوری کار می‌کنه. چون تقریباً همه‌ی LLMهای امروزی از روی هم چیدن بلوک‌های ترنسفورمر ساخته می‌شن، فهمیدن همین ماشین‌آلات بیشتر راه رو طی می‌کنه. مسیر از توکن‌سازی و embedding شروع می‌شه و به attention، شبکه‌ی feed-forward و حلقه‌ی پیش‌بینی کلمه‌ی بعدی می‌رسه. هدف اینه که بعدش بتونی مقاله‌ها و model card های مدل‌ها رو بخونی و بفهمی هر بخش از چی حرف می‌زنه.

این محتوا به‌صورت خودکار با استفاده از هوش مصنوعی تولید شده است. بررسی نهایی آن پیش از استفاده توصیه می‌شود و مسئولیت استفاده از آن به‌عهده کاربر است. برای مطالعه متن اصلی خبر، اینجا را کلیک کنید

خلاصهٔ کامل‌تر

نویسنده می‌گه چون مدل‌های زبانی مدرن بیشتر از روی هم چیدن بلوک‌های ترنسفورمر ساخته می‌شن، اگه همین ماشین‌آلات ترنسفورمر رو بفهمی بیشتر راه رو رفتی. فرقِ مدل‌ها هم بیشتر تو چیزیه که روش train شدن، مقیاس و انتخاب‌های پیکربندی، و post-training که روش انجام می‌شه. مسیر مقاله از توکن شروع می‌شه: مدل خودِ متن رو نمی‌خونه، بلکه عددهای صحیح می‌خونه. tokenizer یه رشته رو به دنباله‌ای از عددها تبدیل می‌کنه که هرکدوم به یه ورودی تو یه واژگان ثابت اشاره می‌کنه و معمولاً هم توکن‌ها کلمه‌ی کامل نیستن، بلکه تکه‌های زیرکلمه‌ای‌ان.

بعد نوبت embedding هست. یه ID مثل 1024 به‌تنهایی معنی نداره؛ معنی‌ش از یه جدول بزرگ به اسم ماتریس embedding میاد که به‌ازای هر ورودی واژگان یه ردیف داره و هر ردیف یه بردار بلنده. خاصیت جالبش اینه که توکن‌های از نظر معنایی شبیه، بردارهای نزدیک به هم پیدا می‌کنن؛ مثلاً بردار «king» نزدیک «queen» می‌شه و حتی حساب‌وکتاب روش گاهی جواب می‌ده، مثل king − man + woman ≈ queen. ولی این بردار هیچی درباره‌ی جای توکن تو دنباله نمی‌گه و اینجاست که positional encoding وارد می‌شه.

خلاصهٔ کامل‌تر این خبر رو می‌تونی با داشتن اشتراک ویژه بخونی!

اشتراک رایگان

دسترسی به خلاصهٔ کوتاه خبر
دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
ارسال اخبار مورد علاقه به ایمیل شما
ارسال اخبار مورد علاقه به تلگرام شما
عدم نمایش تبلیغات

اشتراک ویژه

دسترسی به خلاصهٔ کوتاه خبر
دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
ارسال اخبار مورد علاقه به ایمیل شما
ارسال اخبار مورد علاقه به تلگرام شما
عدم نمایش تبلیغات

ارتقا به اشتراک ویژه

منبع: TLDR AI — https://www.0xkato.xyz/how-llms-actually-work/

اشتراک‌گذاری:

خلاصهٔ کامل‌تر

اخبار مرتبط