事情是这样的 ,用 agent 去浏览操作网页,然后直接和 agent 对话 ,全程有 60 多条信息大概 1800 字左右 ,api 花费加上各种工具调用之类花费 2 分钱 ( v4-flash )
如果网页上直接从接口取数的话测算了下不到 0.5 分钱就可以搞定了,60*30 1800 条信息,一个月不到 1.5 毛钱
成本是一方面,还有就是速度,大概 17 个工具调用,输出了 5000 左右文字,输入了上万文字整体才花了不到 2 分钟
背景铺垫完了,如果主流的网站都支持某种 mcp 的协议或三方适配,那么是不是浏览网页这个动作也彻底被重构了呢?
这里面蕴含有哪些价值,欢迎大家讨论