Wall Attention: واریانتی از توجه با فراموشیِ کانالبهکانال
Wall Attention یه واریانتِ مکانیزمِ توجهه که یه زوالِ ضربیِ یادگرفتهشده رو بهصورت کانالبهکانال و گامبهگام داخل ضربِ داخلیِ Q و K اعمال میکنه؛ یعنی هر کانالِ کوئری یه نرخِ فراموشیِ مستقل و وابسته به محتوا پیدا میکنه. این رویکرد گیتینگِ اسکالر (FoX) و زوالهای سبکِ RoPE رو به کلِ بُعدِ کانال تعمیم میده و با صفرکردنِ زوال، به توجهِ softmaxِ معمولی برمیگرده. این ریپو دوتا کرنلِ Triton (یکی برای آموزش/prefill و یکی برای decode با کشِ از پیش بازمقیاسشده) رو بستهبندی کرده.
این محتوا بهصورت خودکار با استفاده از هوش مصنوعی تولید شده است. بررسی نهایی آن پیش از استفاده توصیه میشود و مسئولیت استفاده از آن بهعهده کاربر است. برای مطالعه متن اصلی خبر،اینجا را کلیک کنید
خلاصهٔ کاملتر
Wall Attention یه واریانتِ مکانیزمِ توجهه که ایدهٔ اصلیش یه زوالِ ضربیِ کانالبهکانال و گامبهگام ـه که مستقیم داخلِ ضربِ داخلیِ Q و K جاسازی شده. جایی که توجهِ استاندارد امتیازِ یه زوج موقعیت رو با مجموعِ سادهٔ ضربِ کانالها میسازه، Wall Attention هر کانال رو با یه زوالِ یادگرفتهشده که بین دو موقعیت انباشته میشه وزن میده. نتیجه اینه که هر کانالِ کوئری یه نرخِ فراموشیِ مستقل و وابسته به محتوا پیدا میکنه.
به گفتهٔ توسعهدهنده، این کار گیتینگِ اسکالر (مثل FoX) و زوالهای سبکِ RoPE رو به کلِ بُعدِ کانال تعمیم میده. نکتهٔ جالب اینه که اگه زوال (g) رو صفر بذاری، دقیقاً به همون توجهِ softmaxِ معمولی برمیگردی؛ پس این مکانیزم یه حالتِ کلیتره که توجهِ استاندارد یه نمونهٔ خاصش حساب میشه.
خلاصهٔ کاملتر این خبر رو میتونی با داشتن اشتراک ویژه بخونی!
اشتراک رایگان
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات
اشتراک ویژه
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات




