V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Northxw
V2EX  ›  程序员

Python 爬虫 分析网易 163 邮箱的邮件列表节点(加载方式)遇到阻碍...

  •  
  •   Northxw · 2019-03-15 13:24:44 +08:00 · 2260 次点击
    这是一个创建于 2111 天前的主题,其中的信息可能已经有所发展或是发生改变。

      网易的产品给我的感觉亲和力还挺好的,网易新闻连 robots.txt 都没有,默认允许所有爬虫的爬取行为。今天爬取网易 163 邮箱,却着实碰到了一个硬茬,邮件列表的 div 一直获取不到,我自己分析了两种可能:

    • Js 加载
    • 隐藏的 iframe 节点   首先申明,我不是学前后端的,我对前端略有涉猎,后端基本全无,所以分析过程比较困难,求解答。。。
    7 条回复    2019-03-15 22:39:15 +08:00
    takemefly
        1
    takemefly  
       2019-03-15 13:28:37 +08:00
    应该是 JS 加载。有前端知识的话,可以了解这个开源抓取器 https://gitee.com/golddata/golddata-spider,里面提到了一个免费社区板试试。
    Northxw
        2
    Northxw  
    OP
       2019-03-15 13:41:08 +08:00
    @takemefly 爬虫自动化工具呗 嘿嘿 不过我还是想自己搞
    krixaar
        3
    krixaar  
       2019-03-15 15:43:54 +08:00
    爬邮件内容的话,应该是只能爬自己的邮箱,如果是爬自己的邮箱,为啥不直接把邮件 IMAP 下来……
    从 126 看是一个到 mail(dot)126(dot)com/js6/s?sid=(cookie:Coremail.sid)&func=mbox:listMessages&deftabclick=t3 的 xhr,POST 一个特定格式的 xml,然后直接回一个 json 的邮件完整列表。
    Northxw
        4
    Northxw  
    OP
       2019-03-15 16:12:30 +08:00
    @krixaar 我的初衷是用 Selenium 登录加爬取邮件,如果那样的话,太千篇一律了。。。
    coolloves
        5
    coolloves  
       2019-03-15 21:46:27 +08:00 via iPhone
    @Northxw 如果是收取邮件,好像可以直接通过 pop 模块获取吧
    locoz
        6
    locoz  
       2019-03-15 22:36:31 +08:00 via Android
    直接用协议不是方便很多吗
    Northxw
        7
    Northxw  
    OP
       2019-03-15 22:39:15 +08:00
    @coolloves 你好,不是直接收取邮件。而是获取邮件列表中所以邮件的有效信息。。。

    @locoz 协议固然方便,哈哈。 不过我还是希望自己通过 Selenium 实现下,不想太千篇一律。。。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1027 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 20:42 · PVG 04:42 · LAX 12:42 · JFK 15:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.