‏فاین‌تیون Cosmos Predict 2.5 با LoRA برای تولید ویدیوی ربات

۱۰ خرداد

NVIDIA Cosmos Predict 2.5 یه مدل ویدیویی بزرگه که می‌تونه ویدیوهای فیزیکی‌باور بر اساس متن، تصویر یا کلیپ ویدیویی بسازه. فاین‌تیون کامل این مدل ۲ میلیارد پارامتری گران و پرخطره، اما با LoRA و DoRA می‌شه با یه GPU تکی و حداقل حافظه این کار رو انجام داد. هدف اصلی اینه که به‌جای جمع‌آوری گران‌قیمت داده‌ی واقعی ربات، ویدیوی مصنوعی تولید کنیم و ازش برای آموزش سیاست‌های رباتیک استفاده کنیم.

این محتوا به‌صورت خودکار با استفاده از هوش مصنوعی تولید شده است. بررسی نهایی آن پیش از استفاده توصیه می‌شود و مسئولیت استفاده از آن به‌عهده کاربر است. برای مطالعه متن اصلی خبر،اینجا را کلیک کنید

خلاصهٔ کامل‌تر

NVIDIA Cosmos Predict 2.5 یه مدل جهانی (World Model) در مقیاس بزرگه که می‌تونه ویدیوهای فیزیکی‌باور بسازه؛ مشروط به متن، تصویر اولیه، یا کلیپ ویدیویی. یکی از کاربردهای مهمش اینه که به‌جای جمع‌آوری دیتای واقعی از ربات‌ها — که کند و گرونه — بشه مسیرهای مصنوعی تولید کرد و ازشون برای آموزش مدل‌های رباتیک استفاده کرد.

فاین‌تیون کامل یه مدل ۲ میلیارد پارامتری هم پرهزینه‌ست و هم ریسک «فراموشی فاجعه‌بار» داره — یعنی مدل دانش عمومیش رو از دست می‌ده. LoRA (Low-Rank Adaptation) و DoRA راه‌حل هستن: ماژول‌های کوچک و قابل‌آموزشی رو به مدل منجمد اضافه می‌کنن. نتیجه اینه که فقط ~۵۰ میلیون پارامتر آموزش می‌بینن، فایل آداپتور کوچک می‌مونه، و می‌شه روی یه GPU تکی هم کار کرد.

خلاصهٔ کامل‌تر این خبر رو می‌تونی با داشتن اشتراک ویژه بخونی!

اشتراک رایگان

دسترسی به خلاصهٔ کوتاه خبر
دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
ارسال اخبار مورد علاقه به ایمیل شما
ارسال اخبار مورد علاقه به تلگرام شما
عدم نمایش تبلیغات

اشتراک ویژه

دسترسی به خلاصهٔ کوتاه خبر
دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
ارسال اخبار مورد علاقه به ایمیل شما
ارسال اخبار مورد علاقه به تلگرام شما
عدم نمایش تبلیغات

ارتقا به اشتراک ویژه

منبع: TLDR AI — https://huggingface.co/blog/nvidia/cosmos-fine-tuning-for-robot-video-generation

اشتراک‌گذاری:

خلاصهٔ کامل‌تر

اخبار مرتبط