V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
leiuu
V2EX  ›  程序员

中小企业 2B 系统上,有什么好的大数据实时查询引擎推荐(OLAP)?

  •  
  •   leiuu · 2020-02-26 10:16:33 +08:00 · 4643 次点击
    这是一个创建于 1766 天前的主题,其中的信息可能已经有所发展或是发生改变。

    RT。
    数据量级已经到达千万级,mysql 即席查询已经不太能满足。
    现在内部用过 impala,但是不太好用,复杂类型使用限制较多。
    各位大佬,有没有更好的 OLAP 框架组件推荐呢?

    25 条回复    2020-02-27 13:20:13 +08:00
    YouXia
        1
    YouXia  
       2020-02-26 10:25:49 +08:00
    Presto
    misaka19000
        2
    misaka19000  
       2020-02-26 10:26:10 +08:00
    HBase
    zzcworld
        3
    zzcworld  
       2020-02-26 10:39:13 +08:00
    试试 yandex 的 clickhouse 吧
    fuyufjh
        4
    fuyufjh  
       2020-02-26 10:40:24 +08:00   ❤️ 1
    千万级不算大,建议单机数据库省时省心,比如 greenplum
    leiuu
        5
    leiuu  
    OP
       2020-02-26 10:44:02 +08:00
    @YouXia presto 内部也有 感觉速度不够快 用来支持在线的应用不知道怎么样...
    @misaka19000 hbase 的话,需要再加一个服务吧,专门处理前端和 hbase 之间的交互吧...
    leiuu
        6
    leiuu  
    OP
       2020-02-26 10:46:01 +08:00
    @fuyufjh greenplum 有...查询性能千万级应该可以... 现在想替换掉... 因为之前买了优化服务...服务停了就有各种问题 哈哈哈

    @zzcworld 最近正在看这个 不知道有没有分析系统前端直查 clickhouse 的应用
    preyta
        7
    preyta  
       2020-02-26 10:47:17 +08:00
    clickhouse 可以
    misaka19000
        8
    misaka19000  
       2020-02-26 10:55:12 +08:00
    Elasticsearch ?支持 rest 接口
    EmdeBoas
        9
    EmdeBoas  
       2020-02-26 10:57:19 +08:00   ❤️ 2
    1. HBase 是 CF 的 NoSQL,跟 OLAP 没关系
    2. CH 可以,但运维成本高,没法更新,rebalance、扩容、 删数据头疼
    3. Doris 整体而言不错,性能、运维、灵活性皆可,可以低频更新
    但用此类 OLAP 的系统都需要先把数据打平,有一个 ETL 的过程,过于复杂的 SQL ( join 过多),性能都不会太好

    有一个纯内存的 OLAP 引擎:SnappyData,速度很快,可以支持非常复杂的 SQL ;但社区小众,而且不稳定,BUG 多,不过千万级的数据还是随便玩了

    楼主可以都调研一下,个人推荐 Doris
    xinyewdz
        10
    xinyewdz  
       2020-02-26 10:58:15 +08:00
    千万级,es 完全可以搞。
    leiuu
        11
    leiuu  
    OP
       2020-02-26 11:03:01 +08:00
    @misaka19000 ES 内部有一个 20 亿数据的分析服务... 不过不是即席查询... ES 语法比较复杂、和大数据解决方案路径几乎完全不同,维护学习成本比较高。
    leiuu
        12
    leiuu  
    OP
       2020-02-26 11:07:43 +08:00
    @EmdeBoas 感谢 Doris、SnappyData 都没了解过。拓展了我的视野。yeah
    @xinyewdz 理论上可以。
    maodun1997
        13
    maodun1997  
       2020-02-26 11:09:47 +08:00
    基于 Flink 实时数仓,先做数仓。做了数仓可以提高查询效率。
    leiuu
        14
    leiuu  
    OP
       2020-02-26 11:34:06 +08:00   ❤️ 1
    关于百度开源的 Doris 系统,有一篇介绍还不错: https://blog.bcmeng.com/post/meituan-doris.html
    @EmdeBoas 哦 不对 评论区捉到了你 大佬😄
    min
        15
    min  
       2020-02-26 12:08:20 +08:00
    kyligence
    aimiyooo
        16
    aimiyooo  
       2020-02-26 14:43:13 +08:00
    kylin,druid,es,clickhouse,doris,看情况具体分析吧
    lovedebug
        17
    lovedebug  
       2020-02-26 14:45:40 +08:00
    流式实时数据库还是不少的。
    ELK 集群 + 热数据可以近实时,这样节省成本。
    如果用 SPARK + 分布式实时数据库,那成本可是非常贵的
    leiuu
        18
    leiuu  
    OP
       2020-02-26 15:05:51 +08:00
    @min 撞名 kylin,动物园又新来小伙伴...😄 我去了解一下

    @aimiyooo 👍👍 这些组件都相对比较活跃,基本上就是这几个中选

    @lovedebug 基于 java 的实时分析 为啥会天然觉得慢 😄
    spark on yarn 倒是目前有一个集群 成本确实高很多 但是整个数据开发都基于此
    lovedebug
        19
    lovedebug  
       2020-02-26 15:25:58 +08:00
    @leiuu spark streaming 在 Azure 上几台机器每个月大几万刀,数据量还不是很大。 所以扩大一下还是很惊人的。
    btnokami
        20
    btnokami  
       2020-02-26 15:28:53 +08:00 via iPhone
    aws redshift?
    jakson
        21
    jakson  
       2020-02-26 16:33:13 +08:00
    16 楼正解
    SbloodyS
        22
    SbloodyS  
       2020-02-26 17:02:41 +08:00
    spark 或者 flink 实时数仓搞定
    yaxianzhi
        23
    yaxianzhi  
       2020-02-26 17:08:47 +08:00
    千万量级分下表,优化下索引,优化下 sql,应该可以应对吧
    Comdex
        24
    Comdex  
       2020-02-26 23:24:55 +08:00 via iPhone
    试试 tidb?
    leiuu
        25
    leiuu  
    OP
       2020-02-27 13:20:13 +08:00
    @yaxianzhi 指 mysql 吗,理论上应该可以的。只是优化起来不太方便,考虑到可能还会增长。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   962 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 22:49 · PVG 06:49 · LAX 14:49 · JFK 17:49
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.