V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
huobi98988
V2EX  ›  Python

爬虫的极限是什么?

  •  
  •   huobi98988 · 2022-03-15 21:16:06 +08:00 · 5321 次点击
    这是一个创建于 968 天前的主题,其中的信息可能已经有所发展或是发生改变。

    单从技术层面讨论:

    超顶尖的爬虫技术能否取得 APP (网页) 没有公开的数据 ? 例如访客的联系电话

    27 条回复    2022-03-23 18:21:25 +08:00
    luckyrayyy
        1
    luckyrayyy  
       2022-03-15 21:17:45 +08:00 via iPhone   ❤️ 4
    极限不就是 Google 么
    Cielsky
        2
    Cielsky  
       2022-03-15 21:17:55 +08:00 via Android   ❤️ 1
    你说这个叫爬虫吗
    ch2
        3
    ch2  
       2022-03-15 21:18:38 +08:00   ❤️ 2
    那是黑客,不叫爬虫,爬虫跟人肉抄网页的最终结果一样
    ciqulover
        4
    ciqulover  
       2022-03-15 21:20:13 +08:00
    如果连访客联系电话都能爬到,那大概站长的数据的还没你多
    pengtdyd
        5
    pengtdyd  
       2022-03-15 21:23:13 +08:00
    爬虫的极限是哲学!!!《论爬虫如何最大化爬取数据而不被反爬》
    sleeepyy
        6
    sleeepyy  
       2022-03-15 21:26:05 +08:00
    极限就是最大程度地模拟一个正常用户的操作,所有人可以看到的内容都可以爬到
    abc0123xyz
        7
    abc0123xyz  
       2022-03-15 21:38:13 +08:00
    单从现实层面讨论:
    包吃包住🤣
    huobi98988
        8
    huobi98988  
    OP
       2022-03-15 21:39:43 +08:00
    @abc0123xyz 什么意思?
    joyhub2140
        9
    joyhub2140  
       2022-03-15 21:45:50 +08:00
    @huobi98988 意思就是进牢子,睡铁床,吃皇家饭
    fml87
        10
    fml87  
       2022-03-15 21:49:20 +08:00
    最多就是扫一遍端口,再用常用字典扫一遍网站目录,更进一步的就不是爬虫了
    abc0123xyz
        11
    abc0123xyz  
       2022-03-15 21:50:47 +08:00   ❤️ 1
    @huobi98988 附赠银手镯一对,再也不会熬夜了,天天早睡早起😁
    还能学点新技术,比如
    lithiumii
        12
    lithiumii  
       2022-03-15 23:23:03 +08:00 via Android
    分情况讨论。有些网页没公开的数据实际上已经发给前端了,这时候爬虫显然可以。但电话等敏感数据,正常点的开发团队不至于犯这种错误
    Dart
        13
    Dart  
       2022-03-15 23:26:29 +08:00
    爬虫的天花板是天眼查
    IvanLi127
        14
    IvanLi127  
       2022-03-15 23:33:50 +08:00 via Android
    能啊,这有啥不能的。。。爬虫又不是不能用账号密码用白名单 ip 爬后台页面,是吧。。。
    kingfalse
        15
    kingfalse  
       2022-03-16 07:36:12 +08:00 via Android   ❤️ 1
    你这个不是爬虫,前几年根据用户手机壳的颜色改变 app 主题色的需求就是你提出来的吧?
    kingfalse
        16
    kingfalse  
       2022-03-16 07:37:47 +08:00 via Android
    要联系方式的话去抓天眼查,企查查,分分钟搞几个亿出来
    musi
        17
    musi  
       2022-03-16 09:11:45 +08:00
    极限应该能把牢底坐穿?
    guaguaguaxia1
        18
    guaguaguaxia1  
       2022-03-16 09:19:12 +08:00   ❤️ 1
    你这问题提得就跟没学过爬虫一样
    advancejar
        19
    advancejar  
       2022-03-16 09:39:33 +08:00
    昨天 315 新闻刚出
    ebushicao
        20
    ebushicao  
       2022-03-16 10:46:52 +08:00
    你能问出这个问题,说明你连爬虫是啥都不太明白...
    sariya
        21
    sariya  
       2022-03-16 11:00:56 +08:00
    极限是被 ban
    Danswerme
        22
    Danswerme  
       2022-03-16 13:47:47 +08:00
    你这让我想起来我以前上班的一家公司,老板让我把另一家电商公司的用户订单数据爬出来,我说这个爬不到,他说我在我手机上都能看到订单,你爬不到? 我很无语,过了几天我就拜拜了。
    yedanten
        23
    yedanten  
       2022-03-16 13:57:22 +08:00 via Android
    获得网页上未公开的数据已经脱离爬虫领域了,那是信安的领域,渗透测试干的活
    flewsea
        24
    flewsea  
       2022-03-16 14:42:38 +08:00
    极限就是可以进包间,学缝纫机技术
    bulay
        25
    bulay  
       2022-03-16 17:20:32 +08:00
    不遵从 robots 协议的都不要爬才是最好的选择,既安全又简单
    huobi98988
        26
    huobi98988  
    OP
       2022-03-23 18:21:05 +08:00
    @advancejar 315 曝光的里面没有看到爬虫技术的使用
    huobi98988
        27
    huobi98988  
    OP
       2022-03-23 18:21:25 +08:00
    @advancejar 哪个案例是使用爬虫的?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1031 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 20:35 · PVG 04:35 · LAX 12:35 · JFK 15:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.