ایجنتهای هوش مصنوعی معمولاً تستهای بدی مینویسن. جیسون سوئت نشون میده با چه فرایندی میشه همون ایجنت رو وادار به نوشتن تستهای تمیز و معنادار کرد.
این مقاله میگه برای ارزیابی ایجنتهای طولانیافق، یک LLM judge ساده شکست میخوره و به یک «داور ایجنتی» نیاز داریم که بتونه جستوجو، راستیآزمایی و تطبیق کنه.
DeepSWE یک بنچمارک جدید برای سنجش ایجنتهای کدنویسیه که نشون میده مدلهایی که روی رقبای قدیمیتر خیلی به هم نزدیک به نظر میرسن، در واقع تفاوت چشمگیری با هم دارن.
هوش مصنوعی باز کردن PR رو برای همه آسون کرده، اما کدش قابلاعتماد نشده؛ و بار بازبینی این «اسلاپ» روی دوش توسعهدهندهها افتاده.
یه توسعهدهنده بعد از چند ماه کار با Claude Code میگه حالا خیلی کمتر کد مینویسه و بیشتر وقتش رو صرف فهمیدن و تست کدی میکنه که Claude نوشته.
aimock یه پکیج Node.jsه که تمام APIهای رایج هوش مصنوعی رو موک میکنه تا بتونی اپلیکیشنهای AI خودت رو بدون نیاز به کلید API یا اینترنت تست کنی.
شرکتها اغلب فرمول محصولاتشون رو عوض میکنن بدون اینکه کسی بفهمه. اما علم «تست تشخیص» دقیقاً به همین سوال جواب میده که آیا آدمها اصلاً متوجه فرق میشن یا نه.
سافاری دومین مرورگر پرکاربرد دنیاست و روی iOS و iPadOS هیچ جایگزینی نداره — ولی اگه مک نداری، تستش کار سختیه.
Pest v4.5.0 با قابلیت retry خودکار برای تستهای ناپایدار اومد — حالا میشه تستهایی که گاهی قطع میشن رو علامتگذاری کرد تا فریمورک خودش چند بار اجراشون کنه.
دو اسکیل (skill) برای ایجنتهای کدنویسی هوش مصنوعی که تست سیستمهای توزیعشده رو بر پایهی ادعاهای محصول طراحی و اجرا میکنن.
با رشد سرعت توسعه و استفاده گسترده از هوش مصنوعی، پایپلاینهای CI به یکی از بزرگترین منابع هزینه زیرساخت تبدیل شدن — و تستها مقصر اصلیان.
Orval یه ابزار متنبازه که از روی مستندات OpenAPI یا Swagger، کد کلاینت TypeScript کاملاً تایپسیف تولید میکنه — از هوکهای React Query گرفته تا Angular و Zod.
اوروال یه ابزار کدجنریشن هست که مشخصات OpenAPI رو به کلاینتهای تایپسیف، موک و ولیدیتور تبدیل میکنه. نسخه ۸ این ابزار منتشر شد.
agent-device یه CLI متنبازه که به ایجنتهای هوش مصنوعی اجازه میده اپهای واقعی رو روی iOS، Android و دسکتاپ اجرا، بررسی و تست کنن — بدون نیاز به دخالت مستقیم انسان.
وقتی یه باگ ساده رو درست میکنی و یه جای دیگه میشکنه، یا یه تغییر دو روزه دو هفته طول میکشه — اینا تصادفی نیستن، نشانهی طراحی بدن.
تیم Flare به جای mock کردن، یک اپلیکیشن لاراول واقعی با سرور HTTP و صف کارها راه انداخت تا مطمئن بشه همه چیز درست کار میکنه.
Counterfact یه ابزار جدیده که با دادن یه فایل OpenAPI، یه API کامل و زنده با TypeScript برات میسازه — بدون نیاز به پیکربندی یا نصب اضافه.
اگه ابزارهای Unix Shell مینویسی و دنبال یه فریمورک تست سبک و بدون وابستگی هستی، دستور prove و پروتکل TAP دقیقاً همونیه که نیاز داری.
Counterfact یه ابزار متفاوته که از روی OpenAPI spec یه API کامل و stateful میسازه — با تایپسیف TypeScript، هاتریلود، و یه REPL زنده برای کنترل همه چیز.
k6 2.0 با پشتیبانی از ورکفلوهای هوش مصنوعی، API جدید Assertions و بهبود اکستنشنها منتشر شد و تست پرفورمنس رو به سطح جدیدی میبره.