准备开发一个浏览器 AI Agents, 浏览器驱动选择 Puppetter 和 Playwright 哪个好呀？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 388 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近 browser-use 这个项目特别火，感觉 2025 年，大家对 web agent 的需求还是很旺盛的，准备参考 https://midscenejs.com/ 和 https://github.com/browser-use/browser-use 整个 webagent 的开源框架。基于 typescript ，让广大前端开发者也加入到 ai agents 的浪潮中。底层浏览器驱动是基于 Puppetter 还是，基于 Playwright 比较好呀？

有感兴趣的朋友添加我的微信，一起开发。微信（ base64)：eXVhbnNkdQ==

第 1 条附言 · 2025 年 1 月 11 日

项目地址： https://github.com/runbrowser/runbrowser
感兴趣的朋友可以关注一下

agents

puppeteer

3 条回复 • 2025-01-04 17:44:27 +08:00

musi

2025 年 1 月 3 日 via iPhone

为啥不直接用 cdp 直接和 chromium 系的浏览器通信？

YuanJiwei

2025 年 1 月 3 日

谢谢你 @musi 对我很好的启发，cdp 通信是很好一种实现，我计划用它来驱动客户端浏览器。puppetter 或者 playwright 是为服务端浏览器设计的。

riceball

2025 年 1 月 4 日

Good ，推荐基于这个弄： https://github.com/apify/crawlee easily Extract data for AI, LLMs. Works with Puppeteer, Playwright, Cheerio, JSDOM, and raw HTTP. Both headful and headless mode. 并添加了自己的反屏蔽功能和类人指纹。

这个要单独分几块弄

1. 建立 UI 自动化脚本规范,要简单易懂，能很自然扩展到桌面应用，采用类自然语言，使得 LLM 更好理解
2. 开发 UI 自动化脚本引擎库
3. 设计 PPE 可编程提示词工程(引擎)，目的是规范化提示词,使 AI 提示任务工程化，简单化，打通代码和 LLM 之间的 gap ，这个我在弄，目前部分开源： https://github.com/offline-ai/cli 目前进展是实现了类自然语言的结构化聊天消息，只实现了 js 可以像调普通函数一样调用 llm 提示词任务，反过来 llm 提示词也可以调用任意 js 或其他 PPE. PPE 支持继承,import,export. 还没作广泛宣传，自我感觉完成度不高，仅在 Linux 上开发测试。有一两个应用例子. 提示词这块坑多，模型规模越小，坑越多。大模型也有坑，所以想通过规范化提示词避坑。
4. 引入 UI 自动化脚本引擎库，让 LLM 调用.