چطور نتفلیکس با هوش مصنوعی چندوجهی جستجوی ویدیو را متحول کرد
خلاصهٔ کاملتر
یک فصل از یک سریال نتفلیکس میتونه بیش از ۲۰۰۰ ساعت فوتیج خام داشته باشه؛ یعنی چیزی حدود ۲۱۶ میلیون فریم. وقتی یک تدوینگر دنبال لحظهای خاص میگرده، با یکی از سختترین مسائل جستجو در مهندسی نرمافزار روبروئه. نتفلیکس برای حل این مشکل یک پایپلاین سهمرحلهای ساخته که از نظر ظاهری فقط یک نوار جستجوئه، ولی زیرش یک معماری پیچیده از چند مدل هوش مصنوعی، لایه ادغام داده، و موتور جستجوی ترکیبی قرار داره.
چرا چند مدل؟ مدلهای تخصصی در کار خودشون از یک مدل همهکاره بهتر عمل میکنن. به همین دلیل نتفلیکس یک مجموعه (ensemble) از مدلهای متخصص اجرا میکنه: یکی تشخیص چهره، یکی دستهبندی صحنه، یکی رونویسی دیالوگ، و یکی شناسایی اشیاء. اما هر مدل خروجی متفاوتی تولید میکنه؛ یکی برچسب متنی مثل «جوئی»، یکی یک بردار ۵۱۲ بُعدی (عددی که «معنای» صحنه رو به شکل ریاضی نمایش میده)، و یکی متن با تایماستمپ. علاوه بر این، هر مدل ویدیو رو با بازههای زمانی متفاوت و همپوشانی برش میزنه. مثلاً مدل شخصیت «جوئی» رو از ثانیه ۲ تا ۸ تشخیص میده، ولی مدل صحنه «آشپزخانه» رو از ثانیه ۴ تا ۹ — هیچ تایملاین مشترکی وجود نداره.
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات




