چطور Databricks بیش از ۱۲۰ تریلیون توکن در ماه سرو میکنه
خلاصهٔ کاملتر
Databricks در یک پست فنی مفصل توضیح داده که چطور inference پلتفرمش — که هم مدلهای متنباز مثل Kimi و Qwen و هم مدلهای اختصاصی مثل OpenAI، Gemini و Claude رو سرو میکنه — برای مقیاس واقعی طراحی شده. این پلتفرم الان بیش از ۱۲۰ تریلیون توکن در ماه پردازش میکنه و زیرساخت inference اپلیکیشنهای بزرگی مثل Superhuman رو تأمین میکنه.
یکی از بزرگترین چالشها اینه که هزینه پردازش هر request خیلی متغیره و از قبل نمیشه دقیق تخمین زد. یک درخواست با context طولانی میتونه چندین برابر یک درخواست کوتاه روی GPU فشار بیاره. برای حل این مشکل، تیم Databricks مفهومی به اسم «model unit» ابداع کردن — یه واحد انتزاعی شبیه به VM ابری که نشون میده هر request چقدر ظرفیت مصرف میکنه. هزینه هر request با یه تابع چندبُعدی تخمین زده میشه که طول input، طول output و نوع مدالیته رو در نظر میگیره.
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات




