Lance: مدل چندوجهی یکپارچه بایتدنس
Lance یه مدل چندوجهی ۳ میلیارد پارامتری از بایتدنسه که تولید تصویر و ویدیو، ویرایش و درک محتوای بصری رو توی یه مدل واحد ادغام کرده. این مدل از صفر آموزش دیده و با وجود حجم کم، روی بنچمارکهای مهمی مثل VBench و GenEval نتایج رقابتی داره. وزنهای مدل به صورت اپنسورس روی Hugging Face منتشر شده.
این محتوا بهصورت خودکار با استفاده از هوش مصنوعی تولید شده است. بررسی نهایی آن پیش از استفاده توصیه میشود و مسئولیت استفاده از آن بهعهده کاربر است. برای مطالعه متن اصلی خبر،اینجا را کلیک کنید
خلاصهٔ کاملتر
Lance یه مدل هوش مصنوعی چندوجهی (multimodal) از تیم تحقیقاتی بایتدنسه که ادعای جالبی داره: به جای اینکه برای هر کار یه مدل جداگانه داشته باشی، یه مدل واحد ۳ میلیارد پارامتری همهچیز رو با هم انجام میده — تولید تصویر، تولید ویدیو، ویرایش تصویر، ویرایش ویدیو، و درک محتوای بصری (VQA یا پرسشوپاسخ بصری).
نکتهی جالب اینه که Lance کاملاً از صفر آموزش دیده — البته به جز دو ماژول کمکی ViT (برای کدگذاری تصویر) و VAE (برای فشردهسازی داده بصری). بقیهی معماری، یعنی بدنهی اصلی transformer، روی ۱۲۸ کارت A100 از پایه ساخته شده. این رویکرد «آموزش چندوظیفهای مرحلهبهمرحله» (staged multi-task training) کمک کرده تا وظایف مختلف به جای تداخل، همدیگه رو تقویت کنن.
خلاصهٔ کاملتر این خبر رو میتونی با داشتن اشتراک ویژه بخونی!
اشتراک رایگان
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات
اشتراک ویژه
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات




