有 50w+完全不一样的网址要爬，用 requests 还是 scrapy？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 3179 days ago, the information mentioned may be changed or developed.

这 50w+的网址，完全不重复，而且只爬个首页

大家觉得用 requests 还是 scrapy ？

能说说这种场景下，两者的优势吗？

谢谢

10 replies • 2017-08-17 20:49:28 +08:00

bazingaterry

Aug 17, 2017 via iPhone

一个是爬虫框架，一个是 HTTP Client 库，有得比吗？

除非是很不熟悉 Python，不然果断 Scrapy 啊。

e9e499d78f

Aug 17, 2017

wget

cdwyd

Aug 17, 2017 via Android

才 50w，requests 就行

tennc

Aug 17, 2017

requests 遍历打开网址，只存储首页~ 就好了~~

misaka19000

Aug 17, 2017 via Android

50w，没什么区别

misaka19000

Aug 17, 2017 via Android

熟悉哪个用哪个

liangmishi

Aug 17, 2017 via Android

感觉两者都可以，还可以用 aiohttp 这个异步库，50 万不用多久就可以跑完了

terrawu

Aug 17, 2017

像这种逻辑不复杂又追求速度的话，elrang 或者 go。我的结果是，主流方案中 erlang 效果最佳。

wlsnx

Aug 17, 2017

没区别

fiht

Aug 17, 2017

最省心的解决办法应该是给我 500 块我给你数据。
不信的话你自己试试看 =、=

有 50w+完全不一样的网址要爬， 用 requests 还是 scrapy？