首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
V2EX
›
mysky007
›
全部回复第 1 页 / 共 1 页
回复总数
2
2018-06-17 16:03:16 +08:00
回复了
vvaaiinn
创建的主题
›
Python
›
微信公众号内容的抓取、大家有什么好的建议吗
补充个链接:[微信公众号文章采集](
http://www.keydatas.com/doc/fuyYRzrY7vy2/weixin-gongzhonghao-caiji-wordpress
)
2018-06-17 15:53:33 +08:00
回复了
vvaaiinn
创建的主题
›
Python
›
微信公众号内容的抓取、大家有什么好的建议吗
通过搜狗入口抓取,有两种方案可以获取到文章的链接:1、解析 html 中的 json 数据。2、使用 seimiAgent 动态加载页面,再用 xpath 提取。使用第一种成本较低。至于 ip 可能被封问题,可考虑接多家 ip 代理服务商切换代理。
http://www.keydatas.com/doc/fuyYRzrY7vy2
这个平台采用的就是这种方案,可以采集,但速度没有普通网页快,可能是尝试了不同 IP 代理比较耗时。
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
实用小工具
·
2779 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 10ms ·
UTC 12:37
·
PVG 20:37
·
LAX 04:37
·
JFK 07:37
Developed with
CodeLauncher
♥ Do have faith in what you're doing.