V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
professorz
V2EX  ›  Python

关于爬虫拖库的一些疑惑

  •  
  •   professorz · 2015-02-07 13:24:49 +08:00 · 4067 次点击
    这是一个创建于 3561 天前的主题,其中的信息可能已经有所发展或是发生改变。
    像http://epub.sipo.gov.cn/gjcx.jsp 这个网站,通过关键词检索能否遍历它数据库里面所有的项目?如果可以的话,这种网站的拖库是不是挺容易的?
    6 条回复    2015-02-07 21:52:03 +08:00
    arkilis
        1
    arkilis  
       2015-02-07 13:37:42 +08:00
    但是你怎么知道这个是数据库中所有的内容呢。

    拖库就是一点不剩给拖下来。拖:音调 一声
    wdlth
        2
    wdlth  
       2015-02-07 14:29:42 +08:00
    这个只能叫抓取、采集数据,真正的拖库不只是数据,还要有关系。
    GeekGao
        3
    GeekGao  
       2015-02-07 16:03:11 +08:00
    理论上是可以获取到所有专利文档数据的,但数据库中的表结构、关系你是“拖”不出来的。
    professorz
        4
    professorz  
    OP
       2015-02-07 21:11:51 +08:00
    @arkilis 嗯,我发现了点bug,比如搜索1985年的数据,“只勾选发明公布”和“四项都勾选”两种情况下,得到的发明公布的数量不一样!奇怪~~
    professorz
        5
    professorz  
    OP
       2015-02-07 21:13:00 +08:00
    @GeekGao 感觉上这种数据库好像没什么表关系。。。甚至4张表就能包含所有数据。。
    GeekGao
        6
    GeekGao  
       2015-02-07 21:52:03 +08:00
    @professorz 你跑题了,我是说他们的数据库本身,而不是如何设计这个系统。。。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3414 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 00:41 · PVG 08:41 · LAX 16:41 · JFK 19:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.