وقتی یه مدل زبانی رو فاینتیون میکنیم، در واقع داریم توزیع احتمالیش رو تغییر میدیم. SFT، RL و On-Policy Distillation این کار رو به روشهای خیلی متفاوتی انجام میدن.
یک اسکن امنیتی روی ۶۰۰۰ وباپ نشون داد که ۱۵۴۲ تاشون — یعنی تقریباً یک چهارم — رویدادهای جعلی Stripe رو بدون بررسی امضا قبول میکنن. این یعنی هر کسی میتونه یه درخواست POST ساده بزنه و بدون پرداخت واقعی، اکانتش رو به پلن پولی ارتقا بده. ریشه مشکل اینه که توسعهدهندهها در مرحله توسعه، چک امضا رو به TODO موکول میکنن و بعد فراموشش میکنن. رفع این باگ با چند خط کد و استفاده از SDK رسمی Stripe کاملاً ممکنه.
OSV-Scanner یه ابزار خط فرمان متنباز از گوگله که بهت کمک میکنه آسیبپذیریهای موجود در وابستگیهای پروژهات رو پیدا کنی. این ابزار به پایگاه داده OSV.dev وصله و از بیش از ۱۱ اکوسیستم زبانی از جمله جاوااسکریپت، پایتون، Go، PHP و Rust پشتیبانی میکنه. علاوه بر اسکن معمولی، قابلیتهایی مثل اسکن کانتینرها، بررسی لایسنس وابستگیها، اسکن آفلاین و حتی پیشنهاد اصلاح خودکار آسیبپذیریها رو هم داره. نسخه V2 این ابزار الان در مرحله بتا در دسترسه.
یه مخزن مخرب در Hugging Face با جعل هویت پروژه «Privacy Filter» اوپنای، بدافزار سرقت اطلاعات رو به کاربران ویندوز تحویل میداد و حتی به صدر ترندهای پلتفرم رسید.
PyGhidra-MCP یه سرور MCP مبتنی بر خط فرمانه که قدرت تحلیلی ابزار مهندسی معکوس Ghidra رو مستقیماً در اختیار LLMها و ایجنتهای هوش مصنوعی قرار میده. این ابزار از طریق پروتکل MCP، بین Ghidra و اکوسیستم مدلهای زبانی پل میزنه تا تحلیل باینریها رو خودکار کنه. دو مد headless برای اتوماسیون و GUI برای کار تعاملی با محیط گرافیکی Ghidra پشتیبانی میشه. همچنین امکان جستجوی معنایی روی کدهای دیکامپایلشده با کمک ChromaDB هم داره.
کتاب «How to Scale Your Model» که توسط محققان Google DeepMind و دیگران نوشته شده، سعی میکنه پرده از رموز مقیاسپذیری مدلهای زبانی بزرگ برداره. این کتاب توضیح میده که TPU و GPU چطور کار میکنن، مدلهای LLM چطور روی سختافزار واقعی اجرا میشن، و چطور میشه موازیسازی درستی برای آموزش و استنتاج انجام داد. هدفش اینه که بتونی هزینه و زمان آموزش مدلهای بزرگ رو تخمین بزنی و بهترین طرح موازیسازی رو برای سختافزار موجود انتخاب کنی. این منبع برای هر کسی که میخواد تحقیقات ML رو در مقیاس بزرگ انجام بد
تیم مهندسی داخلی New Relic قبلاً مجبور بود تلمتری ایجنتهای هوش مصنوعیشون رو بهصورت دستی و با کدنویسی سفارشی دنبال کنه؛ کاری که هم زمانبر بود و هم خطاپذیر. با پذیرش AIM یا همون AI Monitoring پلتفرم New Relic، این فرایند بهکلی تغییر کرد و تیم تونست با یه تغییر کوچیک در کانفیگ Python agent، به متریکهای آمادهی مصرف توکن، زمان پاسخ و نرخ خطا دسترسی داشته باشه. این ابزار بهشون کمک میکنه هم هزینههای مدلهای مختلف رو کنترل کنن و هم عملکرد ایجنتها رو در محیطهای staging و production بهصورت مدا
هوش مصنوعی در حوزههای مختلف نرمافزاری موفق بوده چون با APIهای تمیز و قراردادهای مشخص کار میکنه، اما زیستشناسی و کشف دارو چنین ساختاری ندارن. هر مرحله از کشف دارو — از پیدا کردن هدف درمانی تا طراحی مولکول تا کارآزمایی بالینی — پر از ابهام، فرضیههای احتمالاتی و وابستگیهای پنهانه. این «مشکل API فازی» اصلیترین دلیلیه که ML در داروسازی خیلی سختتر از بقیه حوزههاست. با این حال، ایدههای جدیدی مثل «سلول مجازی» و مدلهای مقیاسپذیر دارن این حوزه رو از نو هیجانزده میکنن.
Copy Fail یه تکنیک افزایش سطح دسترسی محلی در کرنل لینوکسه که دادههای page-cache رو خراب میکنه، بدون اینکه فایل روی دیسک تغییر کنه. همین ویژگی باعث میشه سیستمهای سنتی بررسی یکپارچگی فایل کاملاً ازش غافل بمونن. ابزار copyfail-detect با لایههای مختلف شامل eBPF، auditd، مقایسه page-cache و قوانین Sigma طراحی شده تا این آسیبپذیری رو شناسایی و مهار کنه. بالاترین سطح تشخیص رو مانیتور eBPF داره که فعالیت AF_ALG، splice() مشکوک و زنجیره اکسپلویت رو در لحظه رصد میکنه.
Pike Agent یه ابزار متنباز برای لینوکسه که رفتار برنامهها رو ضبط و آنالیز میکنه. این ابزار از strace برای ردیابی system callها استفاده میکنه، اونها رو توی یه دیتابیس SQLite ایندکس میکنه و بعد بهت اجازه میده از طریق یه TUI با یه LLM درباره رفتار برنامه چت کنی. میتونی ازش بخوای کرشها رو تشخیص بده، race condition پیدا کنه، یا حتی یه پروسه مشکوک رو تریاژ کنه. از مدلهای محلی مثل llama.cpp و APIهای خارجی مثل Claude و Gemini هم پشتیبانی میکنه.
AutoRound یه ابزار کوانتیزاسیون پیشرفته برای مدلهای زبانی بزرگ (LLM) و مدلهای ترکیبی بینایی-زبان (VLM) هست که با استفاده از روش sign-gradient descent میتونه مدلها رو تا ۲ تا ۴ بیت فشرده کنه بدون افت دقت چشمگیر. این ابزار با اکوسیستمهای معروفی مثل Transformers، vLLM و SGLang ادغام شده و از فرمتهای مختلف مثل AutoGPTQ، AutoAWQ و GGUF پشتیبانی میکنه. یه مدل ۷ میلیارد پارامتری رو میشه در حدود ۱۰ دقیقه روی یه GPU کوانتیز کرد و مدل DeepSeek-R1 با وزن ۲۰۰ گیگابایت هم با همین روش ۹۷.۹٪ دقت اصلیش
بایتدنس، شرکت سازندهی تیکتاک، یه واحد داخلی به اسم Anew Labs داره که روی کشف دارو با هوش مصنوعی کار میکنه. این واحد اولین داروی طراحیشده توسط هوش مصنوعیاش رو در یه کنفرانس بزرگ ایمونولوژی در بوستون معرفی کرد؛ یه مولکول کوچیک که پروتئین IL-17 رو هدف میگیره و مرتبط با بیماریهای خودایمنی مثل پسوریازیس و آرتریت روماتوئیده. این تیم همچنین مدل AnewOmni رو منتشر کرده که ادعا میکنه اولین فریمورک جنریتیوایه که میتونه مولکولهای کاربردی رو در همهی مقیاسهای مولکولی طراحی کنه.
بنچمارک SpatialBench نشون میده مدلهای جدید GPT-5.5 و Opus 4.7 در تحلیل زیستشناسی فضایی سریعتر شدن ولی دقتشون عملاً تغییری نکرده. GPT-5.5 زمان اجرا رو نصف کرده ولی دقتش از 57.4٪ به 57.6٪ رسیده که تفاوت معناداری نیست. بررسی دستی مسیر تحلیل مدلها نشون میده که اشکالات اساسی در قضاوت زیستشناختی هنوز باقیه؛ از جمله pseudoreplication، نرمالسازی اشتباه، و خوشهبندی بدون تصحیح batch.
AWS یه قابلیت جدید به اسم Neuron Agentic Development معرفی کرده که یه مجموعه اوپنسورس از agentها و مهارتهاست و به دستیارهای هوش مصنوعی کدنویسی کمک میکنه توسعه روی Trainium و Inferentia رو سریعتر کنن. نسخه اولیه روی توسعه کرنل با Neuron Kernel Interface (NKI) تمرکز داره و کل فرآیند از نوشتن کرنل تا پروفایلینگ و آنالیز پرفورمنس رو پوشش میده. یعنی دولوپر میتونه با زبان طبیعی از agent بخواد یه عملیات PyTorch رو به کرنل NKI تبدیل کنه، خطاهای کامپایل رو برطرف کنه یا گزارش بهینهسازی پرفورمنس بگ
باتلر یه ابزار متنبازه که تمام ریپوهای یه سازمان GitHub رو اسکن میکنه و اطلاعات ورکفلوها، اکشنها، سکرتها و وابستگیهای third-party رو جمعآوری میکنه. خروجیش به صورت HTML و CSV آماده میشه که برای بررسیهای امنیتی و آدیت وابستگیها خیلی به درد میخوره. اطلاعات دانلودشده توی یه دیتابیس SQLite ذخیره میشن و میشه چند سازمان مختلف رو توی یه فایل دیتابیس داشت.
Honker یه افزونه SQLite هست که امکانات NOTIFY/LISTEN شبیه به Postgres رو به SQLite اضافه میکنه. با این ابزار میشه صف کار، پابساب دائمی، و استریم رویدادها رو مستقیم توی همون فایل .db داشت، بدون نیاز به Redis، Celery یا هیچ برنامه واسطهای. عملیاتهای بیزینسی و صف پیامها توی یه تراکنش اتفاق میافتن، یعنی اگه rollback بشه، هر دو باهم برمیگردن. Honker از طریق یه افزونه قابل بارگذاری SQLite کار میکنه و برای Python، Node.js، Go، Ruby، Rust، Bun و Elixir باینینگ داره.
شرکت امنیتی Expel یک گروه APT تحت حمایت دولت کره شمالی رو شناسایی کرده که با نام HexagonalRodent ردیابیش میکنه. این گروه با طعمهی آگهیهای شغلی جعلی، توسعهدهندگان Web3 رو هدف قرار میده و از طریق پروژههای آلوده به بدافزار، کیف پولهای ارز دیجیتال رو سرقت میکنه. تنها در سه ماه، ارزهای دیجیتالی معادل ۱۲ میلیون دلار از قربانیان به سرقت رفته. این گروه بهطور گسترده از ابزارهای هوش مصنوعی مثل ChatGPT و Cursor استفاده میکنه تا حملاتش رو صنعتی و مقیاسپذیر کنه.
مدلهای پاداش فرآیندی (PRM) در حوزههایی مثل ریاضیات خوب عمل میکنن، ولی وقتی نوبت به تحلیل دادههای پویا میرسه، دچار مشکل جدی میشن؛ نه خطاهای خاموش رو تشخیص میدن و نه بین اکتشاف ضروری و شکست واقعی فرق میذارن. محققان با معرفی DataPRM این شکاف رو پر کردن؛ یه مدل پاداش تولیدی آگاه از محیط که بهصورت فعال با محیط اجرا تعامل میکنه تا خطاهای پنهان رو کشف کنه. نتایج نشون میده که DataPRM با فقط ۴ میلیارد پارامتر، عملکرد مدلهای پاییندستی رو تا ۱۱ درصد روی بنچمارکهای تخصصی بهبود میده.
یه توسعهدهنده باتجربه که مدتهاست MCP server میسازه، درسهای عملیاش رو از ساخت یه سرور آفیس واقعی با بیش از ۱۰۰ ابزار با ما در میون گذاشته. مهمترین نکته اینه که مدلهای زبانی برنامهریز پنهان ندارن؛ فقط محتملترین گام بعدی رو انجام میدن. پس سرور باید کاری کنه که قدم بعدی برای مدل کاملاً واضح باشه. این مقاله یه چکلیست عملی برای طراحی درست chain ابزارها ارائه میده که از ماهها دیباگ واقعی به دست اومده.
ProEval یه فریمورک متنباز از DeepMind هست که هزینه ارزیابی مدلهای GenAI رو تا ۱۰۰ برابر کاهش میده. این ابزار با استفاده از surrogate های مبتنی بر Gaussian Process، نرخ خطای مدل رو تنها با یک درصد از دادهها با دقت ±۱٪ تخمین میزنه. علاوه بر این، ProEval بهصورت فعالانه الگوهای شکست مدل رو شناسایی میکنه و اطلاعات ارزشمندی برای بهبود توسعه AI فراهم میآره. روی بنچمارکهای معروفی مثل GSM8K، MMLU و StrategyQA هم اعتبارسنجی شده.