|      1airfling      2020-04-15 13:30:03 +08:00 idm 你找下 | 
|      3neoblackcap      2020-04-15 13:35:39 +08:00 要不报个价?免费大概满足不了你,毕竟你都上百万了 | 
|  |      4ostrichb      2020-04-15 13:36:50 +08:00 via Android idm 不是 Windows only? | 
|  |      5wolfan      2020-04-15 13:37:10 +08:00 via Android pySpider 应该符合你的要求,就是到高版本 Python 支持不好。 | 
|  |      7c0py7hat OP @neoblackcap 我不懂这个价格,你说,我自己瞎写了个 py 脚本,但是没多线程啥的 速度太慢了 | 
|      8Hansah      2020-04-15 14:16:58 +08:00 虚拟机搭个 WIN7 ? | 
|  |      9zdnyp      2020-04-15 14:17:38 +08:00 上百万的数据,不知道用不用代-理,用代-理还要买。八爪鱼和弓箭手都有网页版的,就是你写规则,他来跑采集,量小貌似免费。 | 
|  |      10huruwo      2020-04-15 14:28:41 +08:00 请个外包搞下 自己折腾时间成本太高了 | 
|      14yinzhili      2020-04-15 15:02:08 +08:00 你装个 Win10 不就完了吗 | 
|  |      15clemente0620      2020-04-15 15:08:55 +08:00 报个价把 | 
|  |      16c0py7hat OP @clemente0620 我不懂这个,你说吧,加个多线程啥的 速度变快那种 | 
|  |      17also24      2020-04-15 15:17:50 +08:00 via Android wget -i  url.txt  这样? | 
|  |      18also24      2020-04-15 15:19:54 +08:00 诶,没注意到还要多线程? 那就 aria2c --max-concurrent-downloads=10 --input-file=download-list.txt 这样? 如果还要套代理的话,买个隧道代理,自动切换多省心~ | 
|  |      19c0py7hat OP @also24 不是 我是自己瞎写了个 py 爬虫脚本,就是 requests 请求网页然后获取 response 的 content 保存到本地为 x.html 现在问题是速度太慢了 我不会弄那个什么多线程啥的 | 
|      20vhysug01      2020-04-15 15:26:59 +08:00 scrapy 入门一个下午就行,简单无脑。高级的你这种情况也不需要 | 
|  |      21also24      2020-04-15 15:29:32 +08:00 @c0py7hat #19  重点在于: 1 、是否需要配置大量的请求参数 2 、是否存在限制 IP 、链接时效性之类的 如果没有太多限制的话,可以自己只写拆 URL 出来的那部分,然后把需要下载的页面的 URL 灌入 aria2c 的 RPC API 来添加任务,多线程的部分就交给 aria2c 来处理。 如果确实涉及到比较多的流程需要敲代码来搞下载部分,那建议碰一下 aiohttp 这个库: https://docs.aiohttp.org/en/stable/ | 
|  |      22wangyzj      2020-04-15 15:34:23 +08:00 图形化? 虚机搞 win10 装个火车头 | 
|      24charlie21      2020-04-15 17:11:26 +08:00 via iPhone 爬虫无脑 wget | 
|  |      25tikazyq      2020-04-15 17:14:04 +08:00 crawlab 的可配置爬虫了解一下? | 
|  |      26gen900      2020-04-15 21:54:53 +08:00 via iPhone curl 了解一下 | 
|      27Cmdhelp      2020-04-16 12:17:11 +08:00 python |