V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
billyellow
V2EX  ›  分享创造

Zaoshu.io - 爬虫界的“美图秀秀”

  •  
  •   billyellow · 2016-10-18 18:13:30 +08:00 · 5830 次点击
    这是一个创建于 2949 天前的主题,其中的信息可能已经有所发展或是发生改变。

    啦啦啦, 给大家推荐 Zaoshu.io (造数),欢迎大家拍砖~ ; ) 地址是 http://www.zaoshu.io

    我们通过一套网页分析的算法,分析出网页中结构化的数据,然后再爬取页面中的数据。

    有趣的点: 1.我们完全 base 在云上,省去下载软件的麻烦,也提高了爬取速率 2.我们有智能页面分析的算法,所以用户不需要懂编程和正则,轻点几下就可以爬取数据并导出 Excel 。

    你可以通过 zaoshu.io 来做市场的调查分析,来做竞品的监控,也可以做产品反馈的收集。

    Feedback: 产品刚刚 Alpha 上线,所以问题不少,欢迎大家来试用~ 欢迎大家留言讨论,也可以邮件 billy#zaoshu.io : )

    第 1 条附言  ·  2016-10-18 18:59:55 +08:00
    暂时还不支持 ajax 站哈
    25 条回复    2016-10-27 17:33:50 +08:00
    Joway
        1
    Joway  
       2016-10-18 18:43:19 +08:00
    貌似废了, 试了三个网站都卡在正在分析界面 - -

    ps: 昨天 hackathon 还做了一个差不多的东西 ,想问你们这套算法开源吗? 或者能提供点分析思路吗 ? 我是才用行块正文提取 , 但进一步对正文进行结构化提取还真想不出好的方法
    a570295535
        2
    a570295535  
       2016-10-18 18:46:38 +08:00
    然而半个小时后。。。
    ewex
        3
    ewex  
       2016-10-18 19:08:18 +08:00 via Android
    用的 wosign 证书,表示已拉黑证书的打不开
    binux
        4
    binux  
       2016-10-18 19:12:59 +08:00
    根本没有「分析出网页中结构化的数据」,就是非常基础的通过 DOM class id 的 selector 规则生成,连 group 对其都没做好。
    haocity
        5
    haocity  
       2016-10-18 20:32:29 +08:00
    我只想说根本收不到邮件
    prefere
        6
    prefere  
       2016-10-18 20:53:31 +08:00
    见了鬼了,我都拉黑了 wosign 了,怎么还能打开。
    还要把 startCom 也拉黑了?
    kiah
        7
    kiah  
       2016-10-18 20:57:22 +08:00
    然而直接打不开了
    prefere
        8
    prefere  
       2016-10-18 21:09:06 +08:00
    搞定了,终于打不开了。 dog
    skinfiter
        9
    skinfiter  
       2016-10-19 10:18:51 +08:00
    你们。。。
    0xNone
        10
    0xNone  
       2016-10-19 10:21:20 +08:00
    Go dead.
    patton
        11
    patton  
       2016-10-19 11:31:40 +08:00
    一直停留这个页面上分析页面上,没有结果出来
    zqiyun
        12
    zqiyun  
       2016-10-19 13:25:10 +08:00
    你们真过分!
    diefishfish
        13
    diefishfish  
       2016-10-19 14:29:55 +08:00
    随便找了个页面测试,创建规则的时候页码输入 100000009 到 114400009 然后发现并没有创建成功,是什么问题咧
    billyellow
        14
    billyellow  
    OP
       2016-10-19 18:29:41 +08:00
    @ewex 我们马上换证书~~
    billyellow
        15
    billyellow  
    OP
       2016-10-19 18:29:54 +08:00
    @prefere 马上换证书~~~
    billyellow
        16
    billyellow  
    OP
       2016-10-19 18:30:28 +08:00
    @Joway 目前我们用得还是比较简单的算法,升级中 哈哈 有兴趣可以私聊
    billyellow
        17
    billyellow  
    OP
       2016-10-19 18:31:12 +08:00
    @binux 可能是我描述没写的精确,目前还不算是分析,算是提取~
    soulmine
        18
    soulmine  
       2016-10-20 11:11:32 +08:00
    网络异常 请稍后再试
    讲道理 你们这注册都不行 怎么留用户 Hhhhh
    beidouxun
        19
    beidouxun  
       2016-10-20 11:55:17 +08:00 via Android
    我的网站就用了爬虫,现在正在完善中。为了精确用了正则, xpath ,字符串三种方式。现在也在寻找算法但是现在没有很好的算法,能自动并精确的寻找时间 正文 标题等所需要的内容
    mingyun
        20
    mingyun  
       2016-10-21 22:04:20 +08:00
    太慢了,卡死不动了
    micookie
        21
    micookie  
       2016-10-22 13:09:36 +08:00
    注册邮件直接进了 QQ 邮箱直接标记为垃圾邮件。。
    fhefh
        22
    fhefh  
       2016-10-24 19:48:16 +08:00
    一直停留在 正在分析 这个 loading 状态在
    ragnaroks
        23
    ragnaroks  
       2016-10-25 08:56:12 +08:00
    爬取我自己的网站后,进入列表页,点击"我调好了",然后就没有然后了
    billyellow
        24
    billyellow  
    OP
       2016-10-27 17:31:48 +08:00
    @micookie 邮件这块还在优化中哈
    billyellow
        25
    billyellow  
    OP
       2016-10-27 17:33:50 +08:00
    @diefishfish 目前页码有个上限~
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4527 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 10:03 · PVG 18:03 · LAX 02:03 · JFK 05:03
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.