‏چطور Databricks بیش از ۱۲۰ تریلیون توکن در ماه سرو می‌کنه

۲۶ خرداد

Databricks در یک پست فنی توضیح داده چطور پلتفرم inference خودش رو برای سرو بیش از ۱۲۰ تریلیون توکن در ماه ساخته. مفهوم «model unit» به‌عنوان یک لایه انتزاعی برای مدیریت ظرفیت GPU معرفی شده که load balancing و autoscaling رو هوشمندتر می‌کنه. این رویکرد تونسته بیش از ۸۰٪ هزینه GPU رو نسبت به تأمین ظرفیت ثابت کاهش بده. چند مشکل عملیاتی مهم مثل hang بی‌صدای سرور و کندی پردازش تصویر هم با راه‌حل‌های مشخص برطرف شدن.

این محتوا به‌صورت خودکار با استفاده از هوش مصنوعی تولید شده است. بررسی نهایی آن پیش از استفاده توصیه می‌شود و مسئولیت استفاده از آن به‌عهده کاربر است. برای مطالعه متن اصلی خبر،اینجا را کلیک کنید

خلاصهٔ کامل‌تر

Databricks در یک پست فنی مفصل توضیح داده که چطور inference پلتفرمش — که هم مدل‌های متن‌باز مثل Kimi و Qwen و هم مدل‌های اختصاصی مثل OpenAI، Gemini و Claude رو سرو می‌کنه — برای مقیاس واقعی طراحی شده. این پلتفرم الان بیش از ۱۲۰ تریلیون توکن در ماه پردازش می‌کنه و زیرساخت inference اپلیکیشن‌های بزرگی مثل Superhuman رو تأمین می‌کنه.

یکی از بزرگ‌ترین چالش‌ها اینه که هزینه پردازش هر request خیلی متغیره و از قبل نمی‌شه دقیق تخمین زد. یک درخواست با context طولانی می‌تونه چندین برابر یک درخواست کوتاه روی GPU فشار بیاره. برای حل این مشکل، تیم Databricks مفهومی به اسم «model unit» ابداع کردن — یه واحد انتزاعی شبیه به VM ابری که نشون می‌ده هر request چقدر ظرفیت مصرف می‌کنه. هزینه هر request با یه تابع چندبُعدی تخمین زده می‌شه که طول input، طول output و نوع مدالیته رو در نظر می‌گیره.

خلاصهٔ کامل‌تر این خبر رو می‌تونی با داشتن اشتراک ویژه بخونی!

اشتراک رایگان

دسترسی به خلاصهٔ کوتاه خبر
دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
ارسال اخبار مورد علاقه به ایمیل شما
ارسال اخبار مورد علاقه به تلگرام شما
عدم نمایش تبلیغات

اشتراک ویژه

دسترسی به خلاصهٔ کوتاه خبر
دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
ارسال اخبار مورد علاقه به ایمیل شما
ارسال اخبار مورد علاقه به تلگرام شما
عدم نمایش تبلیغات

ارتقا به اشتراک ویژه

منبع: TLDR Dev — https://www.databricks.com/blog/reliable-llm-inference-scale

اشتراک‌گذاری:

خلاصهٔ کامل‌تر

اخبار مرتبط