PageAgent: کنترل رابط وب با زبان طبیعی
PageAgent یه کتابخونه متنباز جاوااسکریپته که مستقیم داخل صفحه وب اجرا میشه و اجازه میده با دستورات زبان طبیعی، رابط کاربری رو کنترل کنی. بدون نیاز به اکستنشن مرورگر، headless browser یا مدلهای multimodal — همه چیز از طریق پردازش متنی DOM انجام میشه. میتونی LLM دلخواهت رو بهش وصل کنی و در چند خط کد، یه AI Copilot به اپت اضافه کنی.
این محتوا بهصورت خودکار با استفاده از هوش مصنوعی تولید شده است. بررسی نهایی آن پیش از استفاده توصیه میشود و مسئولیت استفاده از آن بهعهده کاربر است. برای مطالعه متن اصلی خبر،اینجا را کلیک کنید
خلاصهٔ کاملتر
PageAgent یه کتابخونه جاوااسکریپت (TypeScript) ساخته علیبابا هست که به عنوان یه «GUI Agent» داخل صفحه وب زندگی میکنه. ایده اصلیش اینه که بتونی با نوشتن یه دستور ساده به زبان طبیعی — مثلاً "روی دکمه ورود کلیک کن" — عناصر صفحه رو کنترل کنی، بدون اینکه نیازی به ابزارهای سنگینتر باشه.
یکی از تمایزهای مهمش اینه که بدون اسکرینشات کار میکنه. به جای اینکه تصویر صفحه رو به مدل بده (که نیاز به LLMهای multimodal داره)، PageAgent از DOM به صورت متنی استفاده میکنه. این یعنی میتونی با مدلهای زبانی معمولی هم کارش کنی و نیازی به دسترسیهای خاص نداری.
خلاصهٔ کاملتر این خبر رو میتونی با داشتن اشتراک ویژه بخونی!
اشتراک رایگان
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات
اشتراک ویژه
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات




