云霞资讯网

【阿里开源 Page Agent:让网页听懂人话的 JavaScript 智能体

【阿里开源 Page Agent:让网页听懂人话的 JavaScript 智能体】

快速阅读:阿里巴巴开源了 Page Agent,一个用纯 JavaScript 实现的网页智能体。无需浏览器插件、Python 环境或无头浏览器,只要在页面里加载一行代码,就能用自然语言控制网页操作。支持自带 LLM,提供人机协作界面,还能配合 Chrome 插件实现跨标签页任务。

---

大部分 Web 自动化工具都在服务端做文章,Page Agent 反其道而行。它直接活在你的网页里,用 JavaScript 操作 DOM,不依赖截图,不需要多模态模型。

技术栈极简。一行 `` 标签引入,几句自然语言就能让 AI 点击按钮、填写表单、执行复杂流程。背后的 DOM 处理借鉴了 browser-use 项目的思路,但完全重写为前端方案。

应用场景很实在。

SaaS 产品想加 AI 副驾驶?不用重构后端,直接集成 Page Agent。那些需要 20 次点击才能完成的表单,现在一句话搞定。对于 ERP、CRM 这类企业系统,这几乎是降维打击。

无障碍访问也是个被低估的方向。任何网页都能通过自然语言控制,语音指令、屏幕阅读器,门槛瞬间消失。

GitHub:github.com/alibaba/page-agent

AI创造营 人工智能