V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
gaocegege
V2EX  ›  程序员

求一个面向非码农的爬虫入门 Tutorial

  •  
  •   gaocegege ·
    gaocegege · 2016-02-10 11:04:57 +08:00 · 5689 次点击
    这是一个创建于 2969 天前的主题,其中的信息可能已经有所发展或是发生改变。
    最近身边好多法学啊,经济的同学问能不能学习一下爬虫的姿势,这样以后搜集资料就不需要老是复制粘贴这样的体力劳动了。于是就想来看看有木有符合这样需求的 tutorial ,大家可以 share 一下呢~
    26 条回复    2016-02-16 14:59:06 +08:00
    falcon05
        1
    falcon05  
       2016-02-10 11:30:53 +08:00 via iPhone
    自己做个爬虫系统,教他们写正则表达式
    xcodebuild
        2
    xcodebuild  
       2016-02-10 11:36:46 +08:00
    @falcon05 正则表达式不适合处理爬下来的 HTML
    wdlth
        3
    wdlth  
       2016-02-10 11:40:12 +08:00
    可以试试 XPath
    gamexg
        4
    gamexg  
       2016-02-10 11:40:40 +08:00
    那么用 xpath ,有浏览器插件可以自动生成 xpath 表达式。
    但是还是需要正则或* ? 做一些提取。
    gaocegege
        5
    gaocegege  
    OP
       2016-02-10 11:51:43 +08:00
    正则还是 Xpath ,都是需要教才能用的嘛,有什么教不会写代码的人用这样的技术的文档么 0;0
    总不能来一个,教一个吧
    WildCat
        6
    WildCat  
       2016-02-10 11:56:02 +08:00 via iPhone
    pyquery 比较适合?
    fengxiang
        7
    fengxiang  
       2016-02-10 11:58:10 +08:00 via Android
    直接用火车头得了
    XadillaX
        8
    XadillaX  
       2016-02-10 12:19:51 +08:00 via Android
    nodejs + cheerio
    scarlex
        9
    scarlex  
       2016-02-10 12:32:18 +08:00
    试试 Nightmare.js
    ericls
        10
    ericls  
       2016-02-10 12:45:24 +08:00   ❤️ 1
    https://segmentfault.com/a/1190000002544142
    写过一篇 面对入门的
    ammzen
        11
    ammzen  
       2016-02-10 12:56:48 +08:00
    看楼主说到那些同学搜集资料时就不用老是复制粘贴的抱怨,我觉得他们需要的可能不是爬虫,而是快捷保存资料的工具。
    Evernote 插件用好,完全可以保存重点内容与出处( URL )。
    要么就去找选中即保存的那种工具,浏览完网页后,重要的东西都已经存下来了。
    zog
        12
    zog  
       2016-02-10 13:05:59 +08:00
    我推荐你用 wget 这个命令行工具. 普通爬取工作都可以胜任. 非程序员编写爬虫很难. 爬虫是个很大很大的话题.
    Tink
        13
    Tink  
       2016-02-10 14:11:14 +08:00
    其实主要还是要教他们处理 js 生成的内容
    Jimrussell
        14
    Jimrussell  
       2016-02-10 14:31:31 +08:00 via Android
    好的回答总是简单的,比如 7 楼。再加个按键精灵好了。
    imn1
        15
    imn1  
       2016-02-10 15:27:39 +08:00
    你需要搞清楚需求,你确定他们真的需要一个爬虫么?
    他们可能更需要的是一个后台获取文档、前台截取主要部分(去除无关内容)的工具
    个人觉得他们对文字阅读还是有必要的,但爬虫往往却是忽略“阅读”
    可能一个离线浏览器+笔记类工具会更合适,文章采集器可能合适,不过我不太了解

    同质(指 HTML 结构)少于 1000 都无必要学习爬虫,成本更高
    先弄清需求吧
    Exin
        16
    Exin  
       2016-02-10 16:00:08 +08:00 via iPhone
    仔细想了想,我认为他们还是高估了爬虫的能力。也许他们只是需要 Google 提高搜索效率。
    chemzqm
        17
    chemzqm  
       2016-02-10 18:12:00 +08:00
    学校里论文系统不一定是基于 http 的,渲染也未必是基于 html 。
    就算是 html 页面抓出来格式化,选取段落才是真正麻烦的地方
    xavierskip
        18
    xavierskip  
       2016-02-10 18:22:17 +08:00
    lemonda
        19
    lemonda  
       2016-02-10 18:42:57 +08:00
    @xavierskip
    是这个么?
    import.io
    kslr
        20
    kslr  
       2016-02-10 18:45:25 +08:00 via Android
    雇佣我
    xavierskip
        21
    xavierskip  
       2016-02-10 19:17:09 +08:00   ❤️ 1
    @lemonda 找到了!是 kimono https://www.kimonolabs.com/
    sadscv
        22
    sadscv  
       2016-02-10 19:31:26 +08:00
    @xavierskip 这个好 、完全图形化界面。
    zacks
        23
    zacks  
       2016-02-10 19:50:48 +08:00
    同样推荐 pyspider 。可以通过点击网页或者代码进行爬虫。
    ctrainr
        24
    ctrainr  
       2016-02-10 20:17:39 +08:00   ❤️ 1
    国内:火车头 八爪鱼;国外 import.io kimono visualscraper datascraping.co parsehub mozenda
    wizardforcel
        25
    wizardforcel  
       2016-02-10 21:48:58 +08:00
    我现在用 node+cheerio ,但是也得懂选择器,它比起 xpath 来说对程序员更友好一点,但是对于非程序员来说还是天坑。

    唯一的办法就是做个自动化的工具给他们。
    xavierskip
        26
    xavierskip  
       2016-02-16 14:59:06 +08:00
    kimono 要关闭他的公共服务了 https://www.kimonolabs.com/


    xpath 可以直接在 chrome 浏览器检查元素直接获取, css 选择器或者 xpath 随便生成。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3433 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 11:13 · PVG 19:13 · LAX 04:13 · JFK 07:13
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.