V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
3kkkk
V2EX  ›  程序员

京东没有 robots.txt 是怎样防止爬虫抓取的

  •  
  •   3kkkk · 2021-12-02 17:19:45 +08:00 · 6572 次点击
    这是一个创建于 1084 天前的主题,其中的信息可能已经有所发展或是发生改变。

    试了下京东 www.jd.com/robots.txt 跳首页了。这中间是有什么故事让其它搜索引擎没有抓取他家数据。

    25 条回复    2022-04-22 10:00:56 +08:00
    Jooooooooo
        1
    Jooooooooo  
       2021-12-02 17:24:16 +08:00   ❤️ 2
    这...爬虫真想爬你还用 robots 拦吗.

    都是有个专门的反爬团队做反爬相关的东西

    而且搜索引擎明明收录了京东, 随便一搜就能搜到, 比如 java site:jd.com
    Xusually
        2
    Xusually  
       2021-12-02 17:25:56 +08:00
    确实很奇怪,之前是有的。
    cairnechen
        3
    cairnechen  
       2021-12-02 17:30:21 +08:00
    User-agent: *
    Disallow: /?*
    Disallow: /pop/*.html
    Disallow: /pinpai/*.html?*
    User-agent: EtaoSpider
    Disallow: /
    User-agent: HuihuiSpider
    Disallow: /
    User-agent: GwdangSpider
    Disallow: /
    User-agent: WochachaSpider
    Disallow: /

    去年 11 月 10 号因为未知原因下线了
    muzuiget
        4
    muzuiget  
       2021-12-02 17:32:06 +08:00
    robots.txt 只是君子协定。
    ytll21
        5
    ytll21  
       2021-12-02 17:37:37 +08:00   ❤️ 5
    京东其实没有动力做反爬,因为它主要以自营为主,所以和亚马逊类似逻辑,成交越多越好。淘宝的逻辑会有点不一样,因为淘宝盈利点在于店铺流量,所以让搜索引擎把流量吸走的做法是不符合它自身利益的。
    ytll21
        6
    ytll21  
       2021-12-02 17:39:23 +08:00
    恩,这只是我的一点不成熟的想法,欢迎指正 dodge
    k9982874
        7
    k9982874  
       2021-12-02 17:41:00 +08:00   ❤️ 1
    放 robots.txt 对国内搜索引擎反而是一份 sitemap
    liuzhaowei55
        8
    liuzhaowei55  
       2021-12-02 18:10:49 +08:00 via Android
    各家爬虫会使用特别的 ua ,针对 ua 做了处理吧
    locoz
        9
    locoz  
       2021-12-02 18:24:18 +08:00
    有没有 robots.txt 都不影响被爬和反爬,robots.txt 只是君子协定而已。
    vanton
        10
    vanton  
       2021-12-02 18:28:25 +08:00
    @ytll21 #5

    没错,淘宝现在是广告平台
    gam2046
        11
    gam2046  
       2021-12-02 19:19:48 +08:00   ❤️ 8
    赞同#5 说法,以自营为主的情况下,其实京东相比之下,并不关心流量来源,重要的是有流量,其次是有成交。所以应该是巴不得四面八方的人给京东做引流,反正是从 A 搜索来成交,还是从 B 搜索来成交,都是自营,没差别。

    至于京东的第三方商家,京东自己都不太管他们死活。

    而淘宝需要自己掌握流量的核心诉求是,淘宝自己要卖流量给第三方商家,如果大量站外流量,会导致淘宝自己无法卖流量。
    karloku
        12
    karloku  
       2021-12-02 19:41:12 +08:00
    爬虫和搜索引擎分开说

    我是搜索引擎我也不给自营的电商网站做索引啊, 这都是卖钱的广告流量我主动送给他干什么嘛.
    wqhui
        13
    wqhui  
       2021-12-02 20:06:12 +08:00
    robots 只是说你不想被爬,别人爬不爬还是看别人意愿。。。
    pengtdyd
        14
    pengtdyd  
       2021-12-02 20:54:07 +08:00
    我记得之前有个 JD 的人写了一本书 叫亿级流量。。。里面写了一段关于京东爬虫的内容,去看看吧。
    12101111
        15
    12101111  
       2021-12-02 23:27:26 +08:00
    Google 5900x site: jd.com
    第一条 https://item.jd.com/100016046842.html
    第二条 https://item.jd.com/10031652556617.html
    显然是允许被爬的
    swulling
        16
    swulling  
       2021-12-03 00:36:21 +08:00 via iPhone   ❤️ 3
    京东希望你来爬,但是不希望你爬价格做比价。所以京东反扒策略一般都做在价格显示上。

    淘宝就根本不希望你来爬,所以淘宝把反扒策略做到页面上。
    mineralsalt
        17
    mineralsalt  
       2021-12-03 00:56:47 +08:00   ❤️ 5
    robots: "不要 不要 不要"
    爬虫: "叫吧, 你越叫我越兴奋"
    wzw
        18
    wzw  
       2021-12-03 07:17:08 +08:00 via iPhone
    @ytll21 亚马逊,好像就没有反爬
    mostkia
        19
    mostkia  
       2021-12-03 09:08:08 +08:00
    这玩意儿防君子不防小人,真的要做反爬,还得上非人类识别技术,某宝上偶尔客户端刷的快了,都会出现滑动条识别是不是爬虫。
    realskywalker
        20
    realskywalker  
       2021-12-03 09:53:44 +08:00
    你让我不爬我就不爬?
    chenzheyu
        21
    chenzheyu  
       2021-12-03 10:15:53 +08:00
    @wzw  谁说的,直接至少国际站直接就会被发现是爬虫
    wzw
        22
    wzw  
       2021-12-03 10:28:31 +08:00
    @chenzheyu 别爬那么快, 应该还好吧, 限制没那么严格
    efaun
        23
    efaun  
       2021-12-03 13:44:46 +08:00
    @mostkia #19 我在电脑上用高德必现那个玩意, 拖动一次地图来一次, 辣鸡
    solar
        24
    solar  
       2021-12-03 15:28:47 +08:00
    robots.txt 只是个君子协议而已,并没有法律效力或强制性的。
    jiafeiblog
        25
    jiafeiblog  
       2022-04-22 10:00:56 +08:00
    amazon 还是有反爬的,只是人家的容忍度要高得多
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3271 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 12:26 · PVG 20:26 · LAX 04:26 · JFK 07:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.