پرامپت کشینگ برای مدلهای متنباز در Databricks
Databricks قابلیت پرامپت کشینگ رو به مدلهای متنباز مثل Llama، Gemma و GPT-OSS گسترش داده. این ویژگی پیشتر فقط برای مدلهای اختصاصی مثل GPT و Claude بود. با این تکنیک، بخشهای تکراری پرامپتها کش میشن و نیاز به پردازش مجدد از بین میره. در آزمایش واقعی روی GPT-OSS، توان عملیاتی ۲.۵ برابر و تأخیر P50 سه برابر بهتر شد.
این محتوا بهصورت خودکار با استفاده از هوش مصنوعی تولید شده است. بررسی نهایی آن پیش از استفاده توصیه میشود و مسئولیت استفاده از آن بهعهده کاربر است. برای مطالعه متن اصلی خبر،اینجا را کلیک کنید
خلاصهٔ کاملتر
در استفاده از مدلهای زبانی بزرگ (LLM)، معمولاً هزاران درخواست با یک System Prompt مشترک ارسال میشن. مشکل اینجاست که مدل باید این پیشوند یکسان رو برای هر درخواست از صفر پردازش کنه — این یعنی هدر دادن محاسبات، افزایش تأخیر، و بالا رفتن هزینه. پرامپت کشینگ این مشکل رو حل میکنه: با ذخیرهسازی نتیجه پردازش بخشهای تکراری (بهاصطلاح KV Cache)، دفعه بعد که همون پیشوند اومد، مرحله prefill کاملاً نادیده گرفته میشه و پردازش سریعتر انجام میگیره.
Databricks این قابلیت رو پیشتر برای مدلهای اختصاصی مثل GPT، Gemini و Claude ارائه داده بود. حالا این ویژگی به مدلهای متنباز (Open-Weight) موجود در Foundation Model APIs هم رسیده و شامل بارکاریهای batch inference، pay-per-token و provisioned-throughput میشه.
خلاصهٔ کاملتر این خبر رو میتونی با داشتن اشتراک ویژه بخونی!
اشتراک رایگان
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات
اشتراک ویژه
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات




