V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
MrCard
V2EX  ›  程序员

用 js 写了个爬虫代理 ip 池!感觉比 Python 写的快点

  •  
  •   MrCard · 2019-03-23 17:30:32 +08:00 · 3648 次点击
    这是一个创建于 2074 天前的主题,其中的信息可能已经有所发展或是发生改变。

    用 python 也写过类似的爬虫,开了多线程,运行速度和 js 写的有点差距 这是地址,欢迎大家试用! https://github.com/Card007/Proxy-Pool

    12 条回复    2019-03-24 12:05:52 +08:00
    twotiger
        1
    twotiger  
       2019-03-23 17:58:52 +08:00
    提个建议,把 node_modules 忽略了
    MrCard
        2
    MrCard  
    OP
       2019-03-23 18:07:36 +08:00
    @twotiger 好建议,谢谢
    orangeade
        3
    orangeade  
       2019-03-23 18:12:00 +08:00
    Android 主流方式都是 gevent 或者 asyncio,不见得会慢
    orangeade
        4
    orangeade  
       2019-03-23 18:12:20 +08:00
    android -> python 打错
    delectate
        5
    delectate  
       2019-03-23 18:18:49 +08:00
    一般都是协程,实在不行多进程协程,跑满很轻松。就这点而言,不觉得 py 慢。
    facat
        6
    facat  
       2019-03-23 18:25:51 +08:00 via Android
    爬虫的制约因素一般是网络 I/O,除非你在骨干网上跑爬虫,否则家里的宽带应该和 python 没区别。
    MrCard
        7
    MrCard  
    OP
       2019-03-23 19:04:45 +08:00
    @orangeade 哈哈,第一句看了半天
    qianqlgz
        8
    qianqlgz  
       2019-03-23 19:12:35 +08:00
    怎么你们都会加链接,我不会,试了几次没成功
    MrCard
        9
    MrCard  
    OP
       2019-03-23 19:20:25 +08:00
    @delectate 感觉 js 默认异步,更适合爬虫一点
    MrCard
        10
    MrCard  
    OP
       2019-03-23 19:23:26 +08:00
    @qianqlgz 我直接复制粘贴就出来了,不过把我第二句话的换行吞了
    MrCard
        11
    MrCard  
    OP
       2019-03-23 19:24:46 +08:00
    @facat 差别不大,就是一点点细微的差别
    tikazyq
        12
    tikazyq  
       2019-03-24 12:05:52 +08:00 via iPhone
    已 star,最好有可以验证代理 IP 是否可用的逻辑
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1030 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 20:07 · PVG 04:07 · LAX 12:07 · JFK 15:07
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.