‏کافکا و Spark Streaming؛ درس‌های پنج سال در پروداکشن

یک مهندس با پنج سال تجربه‌ی اجرای کافکا و Spark Structured Streaming در سیستم‌های واقعی (بیمه، تله‌متری صنعتی، تراکنش مالی) درس‌هایش را می‌گه. نکات کلیدی: چک‌پوینت باید از روز اول روی ذخیره‌سازی پایدار مشترک باشه نه دیسک محلی؛ بازه‌ی trigger را طوری انتخاب کن که فایل‌های خروجی ۵۰ تا ۵۰۰ مگابایت بشن؛ برای عملیات stateful حتماً watermark تعریف کن تا حافظه بی‌نهایت رشد نکنه؛ و از روز اول consumer lag، مدت micro-batch و اندازه‌ی state store را مانیتور کن.

این محتوا به‌صورت خودکار با استفاده از هوش مصنوعی تولید شده است. بررسی نهایی آن پیش از استفاده توصیه می‌شود و مسئولیت استفاده از آن به‌عهده کاربر است. برای مطالعه متن اصلی خبر،اینجا را کلیک کنید

خلاصهٔ کامل‌تر

نویسنده‌ای که پنج سال کافکا و Spark Structured Streaming را در پروداکشن (نه دمو) برای پردازش ادعاهای بیمه، تله‌متری تولید و تراکنش مالی با SLA و الزامات انطباق اجرا کرده، تفاوت نسخه‌ی شیک‌اما‌شکننده با نسخه‌ی زشت‌تر‌اما‌قابل‌اتکا را توضیح می‌ده.

اولین درس، چک‌پوینت است: برای هر جاب استریمینگ که نیاز به بازیابی داره غیرقابل‌چشم‌پوشیه، اما چک‌پوینت روی دیسک محلی یعنی جاب فقط از ری‌استارت پروسه بازیابی می‌شه نه از خرابی نود. محل چک‌پوینت باید از روز اول روی ذخیره‌سازی پایدار مشترک (مثل ADLS Gen2) باشه. چک‌پوینت آفست‌های کافکا و state store را نگه می‌داره؛ حذف دستی آن یا تغییر نام کوئری، آفست مصرف‌کننده را ریست می‌کنه.

خلاصهٔ کامل‌تر این خبر رو می‌تونی با داشتن اشتراک ویژه بخونی!

اشتراک رایگان

دسترسی به خلاصهٔ کوتاه خبر
دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
ارسال اخبار مورد علاقه به ایمیل شما
ارسال اخبار مورد علاقه به تلگرام شما
عدم نمایش تبلیغات

اشتراک ویژه

دسترسی به خلاصهٔ کوتاه خبر
دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
ارسال اخبار مورد علاقه به ایمیل شما
ارسال اخبار مورد علاقه به تلگرام شما
عدم نمایش تبلیغات

ارتقا به اشتراک ویژه

منبع: TLDR IT — https://dzone.com/articles/kafka-and-spark-structured-streaming-in-enterprise

اشتراک‌گذاری:

خلاصهٔ کامل‌تر

اخبار مرتبط