V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
lryepoch
V2EX  ›  程序员

现在的爬虫还用 Java 吗

  •  
  •   lryepoch · 2019-03-07 11:03:14 +08:00 via Android · 4716 次点击
    这是一个创建于 2091 天前的主题,其中的信息可能已经有所发展或是发生改变。
    17 条回复    2019-03-08 09:51:25 +08:00
    lhx2008
        1
    lhx2008  
       2019-03-07 11:04:33 +08:00
    Java 异步爬虫效率还是不错的,库也比较完善,不过写不是太方便。
    gowk
        2
    gowk  
       2019-03-07 11:33:11 +08:00
    Python 和 Go 写都比 Java 方便,用 Java 写能巨 TM 烦
    lihongjie0209
        3
    lihongjie0209  
       2019-03-07 11:38:46 +08:00
    写脚本用脚本语言

    写项目用工程语言
    letitbesqzr
        4
    letitbesqzr  
       2019-03-07 11:41:03 +08:00
    现在的爬虫,难道还需要去纠结那点本地解析的性能问题?更注重的不应该是 任务调度 异步 网络 方面? 什么语言熟悉你用什么语言,不觉得哪个语言在这方面有什么天生的优势。
    julyclyde
        5
    julyclyde  
       2019-03-07 13:03:07 +08:00
    “还”?
    tikazyq
        6
    tikazyq  
       2019-03-07 13:11:16 +08:00 via iPhone
    试试 crawlab,哪个爬虫语言都可以的 http://github.com/tikazyq/crawlab
    lryepoch
        7
    lryepoch  
    OP
       2019-03-07 14:16:39 +08:00 via Android
    @julyclyde 因为我觉得现在很多人都是用 python 来爬😂
    mooncakejs
        8
    mooncakejs  
       2019-03-07 14:18:06 +08:00
    爬虫用 java 的不多吧,一般都是 python,现在可能 nodejs 更流行写爬虫。
    shiganwuguo
        9
    shiganwuguo  
       2019-03-07 14:18:56 +08:00 via Android
    大型爬虫 java, 小爬虫随意
    nicevar
        10
    nicevar  
       2019-03-07 14:23:01 +08:00
    公司项目一般用 java 比较多,个人项目功能比较单一,用 python 之类的省事
    WaJueJiPrince
        11
    WaJueJiPrince  
       2019-03-07 14:27:36 +08:00
    @letitbesqzr 有的语言还是有优势的,很少见过有人用 C 或者 VB 直接写爬虫的,不同的语言的出现就是为了弥补其他语言的不足的,所有还是有差距的,不同的语言有不同的优点和缺点。另外,爬虫也不一定就注重的是异步,任务调度,一味追求快速的爬虫不是好的爬虫,也要兼顾对方的负载均衡,稳定性也很重要。另外验证码,js 加密,账号登陆这些不容易追求快速,
    hyc5312
        12
    hyc5312  
       2019-03-07 15:09:47 +08:00
    py 上手快,写一个简单的爬虫也很快,适合新手上路,实际上写爬虫跟编程语言没有太多的关系,选择自己熟悉的语言都可以,爬虫重心应该在于调度,网络,反爬策略,数据清洗等等问题,本人基于 java 写了个爬虫框架,https://github.com/heyingcai/cetty 欢迎来交流~
    juju123
        13
    juju123  
       2019-03-07 15:16:27 +08:00
    大型分布式爬虫用 java 有优势,但写起来没有 py 顺手。
    julyclyde
        14
    julyclyde  
       2019-03-07 20:27:28 +08:00
    @lryepoch 对啊都是用 python 啊。几时曾用过 java ?
    wmhx
        15
    wmhx  
       2019-03-08 00:55:43 +08:00
    java 写爬虫, 现成的框架就不说了;
    手工的, 你可以用 httpclient 抓取,jsoup 解析页面, 90%的页面都能搞定, 剩下的就用 selenium 没跑了;
    taaaang
        16
    taaaang  
       2019-03-08 09:19:04 +08:00
    现在还纠结啥语言,会什么就用什么,关键是要把东西给爬下来
    UserNameisNull
        17
    UserNameisNull  
       2019-03-08 09:51:25 +08:00
    反正携程是 Java 爬虫
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3473 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 11:15 · PVG 19:15 · LAX 03:15 · JFK 06:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.