baozaodexiaomila's recent timeline updates

baozaodexiaomila

V2EX member #670690, joined on 2024-01-10 15:38:20 +08:00

baozaodexiaomila 提问技术话题好玩工作信息交易信息城市相关

要怎么实现快速爬取 1w 个网站呢？

程序员 • baozaodexiaomila • Apr 15, 2025 • Lastly replied by YJi

接码平台-滑块验证码

程序员 • baozaodexiaomila • Jan 12, 2024 • Lastly replied by retanoj

» More topics by baozaodexiaomila

baozaodexiaomila's recent replies

Jun 30, 2025

Replied to a topic by adguy › Linux › 现在 Linux 有啥简单方便使用的 clash 客户端吗？

有没有支持命令行的工具啊？想直接在服务器上安装代理，命令行操作，让程序走该工具的进程端口转发，可行吗？

Apr 8, 2025

Replied to a topic by baozaodexiaomila › 程序员 › 要怎么实现快速爬取 1w 个网站呢？

@jamos 说的在理，只是实际情况爬虫需要处理网页多样化的数据提取，这部分工作目前剥离不开，既然剥不开这部分工作，那么需要采集大量网站时，网页非结构化数据解析就是最大工作量了

Apr 2, 2025

Replied to a topic by baozaodexiaomila › 程序员 › 要怎么实现快速爬取 1w 个网站呢？

@iYume 有好用的 LLM 适合解析网站目标数据吗？我试过 Crawl4ai 和 firecrawl 不太行，这两个库也是对接 openai 去实现解析的，我不太了解这方面，还请指教

Apr 2, 2025

Replied to a topic by baozaodexiaomila › 程序员 › 要怎么实现快速爬取 1w 个网站呢？

@ila 理论上来说，这个就是常规的落地方案，大部分人都会采用这种方式，不过不知道有没有可以结合 AI 的新的方案呢，感觉可以拓展一下哈哈

Apr 2, 2025

Replied to a topic by baozaodexiaomila › 程序员 › 要怎么实现快速爬取 1w 个网站呢？

@jamos 确实是，目前有可利用的大模型吗？我用过 Crawl4ai 和 firecrawl ，觉得解析效果比较差劲，目前有什么比较好的大模型结合大批量数据采集的方案呢？
还有就是，基于我目前的经验，数据采集的流程，从网站分析，脚本开发，网站采集，数据解析，数据入库，这几个阶段，能想到大模型在数据采集流程上的利用，似乎只有在最后数据解析这里能派上用场，脚本开发是不是也可以利用？当下有什么好的结合方式吗？

Mar 19, 2025

Replied to a topic by baozaodexiaomila › 程序员 › 要怎么实现快速爬取 1w 个网站呢？

@Lockroach
谢谢大佬，我去找找看，这边要的是实现一个通用招投标采集系统，有点摸不着头脑，没有这么大量网站采集的经验

Mar 19, 2025

Replied to a topic by baozaodexiaomila › 程序员 › 要怎么实现快速爬取 1w 个网站呢？

谢谢大佬，我去找找看，这边要的是实现一个通用招投标采集系统，有点摸不着头脑，没有这么大量网站采集的经验

Feb 22, 2025

Replied to a topic by dbow › 职场话题 › 搞爬虫的去面试了一下被爬的大厂

可是大厂不是也在招爬虫吗🤣

Feb 22, 2025

Replied to a topic by bwijn › Python › scrapy 的 item 队列把内存挤爆

理论上 pipeline 这里只做数据存储过程，其他业务相关的东西不应该对抓取的结果进行处理，先将 item 通过 pipeline 存到 mongodb 或者 redis 等数据库中，这里作为原始数据，后续的操作应当在这个数据库上搞一个业务数据库来进行处理，就算不另外搞一个数据库，那么业务操作也应该开启新的进程去单独处理数据

» More replies by baozaodexiaomila