V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
ospider
V2EX  ›  Python

全站抓取爬虫,如何确定抓全了一个站点?

  •  
  •   ospider · 2017-02-04 11:22:02 +08:00 · 5221 次点击
    这是一个创建于 2609 天前的主题,其中的信息可能已经有所发展或是发生改变。

    比如优酷这种比较大的站点,只需要确定 url 都有就行

    第 1 条附言  ·  2017-02-04 12:53:10 +08:00
    自己想到了一点,如果拥有 url 消重的集合增长速度小于某个值了,也就是近似不增长了,那就认为基本抓全了,这样可行吗?
    5 条回复    2017-02-06 10:51:41 +08:00
    pathletboy
        1
    pathletboy  
       2017-02-04 11:40:31 +08:00
    如果是一个频繁更新的站点,你永远抓不全。
    scnace
        2
    scnace  
       2017-02-04 11:59:05 +08:00 via Android
    这个怎么可能知道有没有抓全 除非你事先知道他全部的目录结构…
    est
        3
    est  
       2017-02-04 12:16:04 +08:00   ❤️ 1
    没法确定。

    按道理说,优酷内部其实都不知道某一个时刻精确有多少视频。因为是分布式的。每个节点随时都在删除,新增。
    rekulas
        4
    rekulas  
       2017-02-04 12:32:58 +08:00
    跟 google 检索量对比一下,判断抓取比例
    yanzixuan
        5
    yanzixuan  
       2017-02-06 10:51:41 +08:00
    一个网页对应动态的 URL 的时候怎么办呢?
    你只能根据内容来计算啊
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   4878 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 09:53 · PVG 17:53 · LAX 02:53 · JFK 05:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.