V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
1722332572
V2EX  ›  OpenAI

ChatGPT 写爬虫 YYDS,三句话写完爬虫代码,再也不用自己写正则表达式了。

  •  
  •   1722332572 · 2023-03-23 21:20:07 +08:00 · 2226 次点击
    这是一个创建于 610 天前的主题,其中的信息可能已经有所发展或是发生改变。

    作为一个曾经的爬虫爱好者,最讨厌写获取各种元素的正则表达式了,或者在一堆元素中筛选需要的内容。

    ChatGPT 它来了,三句话搞定,第一句获取所有文章列表,第二句,获取一篇文章标题和内容,第三句设计数据库并写入。

    魔法开始,图片无法正常显示用链接代替了。

    第一句获取 http://chatnews.cn/ 所有文章列表

    http://chatnews.cn/wp-content/uploads/2023/03/WechatIMG504.jpeg

    获取一篇文章标题和内容

    http://chatnews.cn/wp-content/uploads/2023/03/WechatIMG505.jpeg

    设计数据库并写入 也不是完全没缺点,比如,机器人偶尔会挂掉,数据库读写部分,可以参考如下推文:

    https://mp.weixin.qq.com/s/IYsGsnGTzvhn-97F1twKrg

    整体表现,非常丝滑,强烈推荐。

    7 条回复    2023-03-24 12:23:46 +08:00
    herozzm
        1
    herozzm  
       2023-03-23 21:22:42 +08:00
    真正商业爬虫 都是尽量避免用正则,比如用 jquery 类方法抓取
    rimworld
        2
    rimworld  
       2023-03-23 21:23:35 +08:00
    应该是他的资料里有爬取过这个网页的代码吧?要不然他怎么知道用选择器选择"h4 a"的
    ila
        3
    ila  
       2023-03-23 21:25:27 +08:00 via Android
    哪三句话?
    ospider
        4
    ospider  
       2023-03-23 21:28:06 +08:00   ❤️ 1
    看了下楼主主页,全是推广帖子……
    WinG
        5
    WinG  
       2023-03-23 21:31:55 +08:00
    楼主的套利和量化战绩如何了?
    1722332572
        6
    1722332572  
    OP
       2023-03-23 22:22:09 +08:00
    @ila 第一句获取所有文章列表,第二句,获取一篇文章标题和内容,第三句设计数据库并写入。
    cherryas
        7
    cherryas  
       2023-03-24 12:23:46 +08:00
    恭喜你学会了爬虫,现在在是请爬取这个有 Akamai 的网站把
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2770 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 09:39 · PVG 17:39 · LAX 01:39 · JFK 04:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.