V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
liwenbest
V2EX  ›  Python

舆情爬虫项目框架及存储选择

  •  
  •   liwenbest · 2021-01-07 14:27:39 +08:00 · 3386 次点击
    这是一个创建于 1400 天前的主题,其中的信息可能已经有所发展或是发生改变。

    手上有个舆情爬虫项目,需要监控几百个企业和一些关键词的网络舆情。本人之前主要有爬取单个网站的经历,查找了些资料,打算使用 scrapy_redis 分布式爬虫,数据库用 mongodb,还有在考虑用 hadoop 存储框架 这样数据传输和计算方便些。有没有做过同时采集多个网站的高手指点下 爬虫框架和存储应该选择哪种更好

    16 条回复    2021-01-18 10:53:03 +08:00
    AntoniotheFuture
        1
    AntoniotheFuture  
       2021-01-07 14:31:30 +08:00
    舆情爬虫有商业服务了,要不要考虑一下?
    liwenbest
        2
    liwenbest  
    OP
       2021-01-07 14:34:54 +08:00
    @AntoniotheFuture 加我 QQ986636628 私聊
    AntoniotheFuture
        3
    AntoniotheFuture  
       2021-01-07 14:49:17 +08:00
    @liwenbest 我没有做,你百度一下有很多啊
    Keyes
        4
    Keyes  
       2021-01-07 14:55:03 +08:00
    预算多少,买个现成的,卖两个人过去看着吧,我司舆情项目都 saas 化了,单一系统根本收不回成本
    wzwwzw
        5
    wzwwzw  
       2021-01-07 14:59:46 +08:00
    @liwenbest QQ 有答案无法回复。
    czfy
        6
    czfy  
       2021-01-07 15:00:48 +08:00   ❤️ 1
    这种从 0 开始不太现实吧..数说故事 /明略 /秒针之类的都有解决方案
    murmur
        7
    murmur  
       2021-01-07 15:05:35 +08:00
    是真的要做还是要坑人钱,爬微博知乎就省省吧,贴吧那么多你爬哪里
    liwenbest
        8
    liwenbest  
    OP
       2021-01-07 15:05:53 +08:00
    @wzwwzw 沙滩车
    liwenbest
        9
    liwenbest  
    OP
       2021-01-07 15:06:41 +08:00
    @Keyes 公司接了个舆情项目 要开发的 开发周期一年 要自己搞了
    liwenbest
        10
    liwenbest  
    OP
       2021-01-07 15:07:51 +08:00
    @czfy 要自己开发的
    czfy
        11
    czfy  
       2021-01-07 15:10:41 +08:00
    @liwenbest 自己开发..只能祝你好运
    smgui
        12
    smgui  
       2021-01-07 16:34:14 +08:00
    可以试试这个,试过用 kafka 和 rabbitmq 作为队列爬了些网络小说:
    https://github.com/Insutanto/scrapy-distributed
    这些框架的源代码都很简单,完全可以自己造轮子。
    liwenbest
        13
    liwenbest  
    OP
       2021-01-07 16:48:25 +08:00
    @smgui 非常感谢 我看看
    tisswb
        14
    tisswb  
       2021-01-12 10:28:25 +08:00
    我几年前做过类似项目,用的是 scrapy_redis + elasticsearch 的组合,基本够用
    liwenbest
        15
    liwenbest  
    OP
       2021-01-14 09:45:25 +08:00
    @tisswb 我目前也是 scrapy_redis 但是存储用 mongodb
    tisswb
        16
    tisswb  
       2021-01-18 10:53:03 +08:00
    @liwenbest 用 es 的好处就是索引 分词 统计功能全面,可以省不少功能开发量
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1019 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 20:38 · PVG 04:38 · LAX 12:38 · JFK 15:38
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.