最近 browser-use 这个项目特别火,感觉 2025 年,大家对 web agent 的需求还是很旺盛的,准备参考 https://midscenejs.com/ 和 https://github.com/browser-use/browser-use 整个 webagent 的开源框架。基于 typescript ,让广大前端开发者也加入到 ai agents 的浪潮中。底层浏览器驱动是基于 Puppetter 还是,基于 Playwright 比较好呀?
有感兴趣的朋友添加我的微信,一起开发。 微信( base64):eXVhbnNkdQ==
1
musi 2 天前 via iPhone
为啥不直接用 cdp 直接和 chromium 系的浏览器通信?
|
2
YuanJiwei OP 谢谢你 @musi 对我很好的启发,cdp 通信是很好一种实现,我计划用它来驱动客户端浏览器。puppetter 或者 playwright 是为服务端浏览器设计的。
|
3
riceball 1 天前
Good ,推荐基于这个弄: https://github.com/apify/crawlee easily Extract data for AI, LLMs. Works with Puppeteer, Playwright, Cheerio, JSDOM, and raw HTTP. Both headful and headless mode. 并添加了自己的反屏蔽功能和类人指纹。
这个要单独分几块弄 1. 建立 UI 自动化脚本规范,要简单易懂,能很自然扩展到桌面应用,采用类自然语言,使得 LLM 更好理解 2. 开发 UI 自动化脚本引擎库 3. 设计 PPE 可编程提示词工程(引擎),目的是规范化提示词,使 AI 提示任务工程化,简单化,打通代码和 LLM 之间的 gap ,这个我在弄,目前部分开源: https://github.com/offline-ai/cli 目前进展是实现了类自然语言的结构化聊天消息,只实现了 js 可以像调普通函数一样调用 llm 提示词任务, 反过来 llm 提示词也可以调用任意 js 或其他 PPE. PPE 支持继承,import,export. 还没作广泛宣传,自我感觉完成度不高,仅在 Linux 上开发测试。有一两个应用例子. 提示词这块坑多,模型规模越小,坑越多。大模型也有坑,所以想通过规范化提示词避坑。 4. 引入 UI 自动化脚本引擎库,让 LLM 调用. |