baozaodexiaomila's recent timeline updates
baozaodexiaomila

baozaodexiaomila

V2EX member #670690, joined on 2024-01-10 15:38:20 +08:00
Today's activity rank 14403
baozaodexiaomila's recent replies
有没有支持命令行的工具啊?想直接在服务器上安装代理,命令行操作,让程序走该工具的进程端口转发,可行吗?
@jamos 说的在理,只是实际情况爬虫需要处理网页多样化的数据提取,这部分工作目前剥离不开,既然剥不开这部分工作,那么需要采集大量网站时,网页非结构化数据解析就是最大工作量了
@iYume 有好用的 LLM 适合解析网站目标数据吗?我试过 Crawl4ai 和 firecrawl 不太行,这两个库也是对接 openai 去实现解析的,我不太了解这方面,还请指教
@ila 理论上来说,这个就是常规的落地方案,大部分人都会采用这种方式,不过不知道有没有可以结合 AI 的新的方案呢,感觉可以拓展一下哈哈
@jamos 确实是,目前有可利用的大模型吗?我用过 Crawl4ai 和 firecrawl ,觉得解析效果比较差劲,目前有什么比较好的大模型结合大批量数据采集的方案呢?
还有就是,基于我目前的经验,数据采集的流程,从网站分析,脚本开发,网站采集,数据解析,数据入库,这几个阶段,能想到大模型在数据采集流程上的利用,似乎只有在最后数据解析这里能派上用场,脚本开发是不是也可以利用?当下有什么好的结合方式吗?
@Lockroach
谢谢大佬,我去找找看,这边要的是实现一个通用招投标采集系统,有点摸不着头脑,没有这么大量网站采集的经验
谢谢大佬,我去找找看,这边要的是实现一个通用招投标采集系统,有点摸不着头脑,没有这么大量网站采集的经验
Feb 22, 2025
Replied to a topic by dbow 职场话题 搞爬虫的去面试了一下被爬的大厂
可是大厂不是也在招爬虫吗🤣
Feb 22, 2025
Replied to a topic by bwijn Python scrapy 的 item 队列把内存挤爆
理论上 pipeline 这里只做数据存储过程,其他业务相关的东西不应该对抓取的结果进行处理,先将 item 通过 pipeline 存到 mongodb 或者 redis 等数据库中,这里作为原始数据,后续的操作应当在 这个数据库上搞一个业务数据库来进行处理,就算不另外搞一个数据库,那么业务操作也应该开启新的进程去单独处理数据
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   972 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 22:14 · PVG 06:14 · LAX 15:14 · JFK 18:14
♥ Do have faith in what you're doing.