V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jiangziheng
V2EX  ›  数据库

大量上报信息,是存 InfluxDB 还是存 Doris 中 ?

  •  
  •   jiangziheng · 157 天前 · 2275 次点击
    这是一个创建于 157 天前的主题,其中的信息可能已经有所发展或是发生改变。
    1. 设备每分钟上报一次数据,数据大小 200 字节
    2. 设备数量 1w->10w->50w.
    3. 前期数据保存半年,后面只存三个月。
    4. 业务想要个设备列表,展示最新的上报数据。

    目前想存入 Doris 中,数据进行压缩,别的还没考虑好。大佬们有啥好的方案么?

    第 1 条附言  ·  157 天前
    想了下,
    查询设备列表最新状态,查上一分钟内的所有上报数据(设备一分钟上报一次),但这样离线的查不到。
    针对单个设备的历史数据查询,应该都没问题。
    暂无其他查询需求。
    13 条回复    2024-05-30 16:05:41 +08:00
    anonydmer
        1
    anonydmer  
       157 天前
    这个场景应该优先时序库吧
    laikick
        2
    laikick  
       157 天前
    InfluxDB 啊
    yeyang5211
        3
    yeyang5211  
       157 天前
    看怎么查吧 物联网场景大多数适合时序数据库,不查的写文件里扔 oss 都行
    heiya
        4
    heiya  
       157 天前
    展示最新的上报数据需要聚合之类( sum, count,group by ...)的操作吗?如果是,感觉 Doris 可以。
    xiaoer90
        5
    xiaoer90  
       157 天前
    时序数据库:influxDB ,timescaledb ,TDengine
    Morriaty
        6
    Morriaty  
       157 天前
    这东西看你的 read 需求
    1. read 实时性不高,同时要复杂的组合 filter 条件、join ,那就 hive
    2. read 实时性高,同时要复杂的组合 filter 条件,但不用 join ,上 influxDB
    3. 同条件 2 ,还需要文本搜索,上 ES
    4. read 实时性高,同时要复杂的组合 filter 条件、join ,那就 clickhouse
    qweruiop
        7
    qweruiop  
       157 天前
    doris 和 clickhouse 都毫无压力。。。
    xueling
        8
    xueling  
       157 天前
    这种设备上报的数据查询方式,一般是聚合统计指标或者按设备/时间查原始记录信息。实现方案很多,推荐:victoriametrics,timescaladb,hbase ,至于要不要选择 ck 或者 doris ,主要看查询的复杂程度。如果有比较多的维度字段,需要任意选择维度进行即席查询,可以使用 ck 或 doris 。如果维度字段很少,查询方式比较简单的话,那就不需要用 ck ,doris 。业务实现涉及很多数据指标,可以了解一下我的开源项目: https://github.com/xl-xueling/xl-lighthouse
    yjhatfdu2
        9
    yjhatfdu2  
       157 天前
    clickhouse 里面可以再加一个物化视图,用 ReplacingMergeTree ,用设备 ID 去重时间戳做版本号,查询的时候再用 window 查询查每个 ID 时间戳最大的,这样就可以获得一个最新的数据,而且这个物化视图会异步的自动清理老数据,速度应该可以很快
    xianzhe
        10
    xianzhe  
       157 天前
    如果没有数据处理的需要,只是简单的查询,influxdb 或者其他 LSM 类的数据库都可,没有必要上 Doris 白白浪费资源。基本赞同 6 楼的。
    VoiceEXONE
        11
    VoiceEXONE  
       156 天前 via iPhone
    如果业务需要把数据进行计算,然后扔 grafana 维度报表分析,不做 join 的话 是直接读 influxDB 还是从 influx DB 分流备份的数据库?
    LDa
        12
    LDa  
       156 天前
    influxdb 社区版默认并未提供集群解决方案 记得做好性能测试
    sampeng
        13
    sampeng  
       156 天前
    其实集群不集群没啥关系。。只要做好备份。挂了能短时间拉起来,对业务影响没那么大就无所谓
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1409 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 17:23 · PVG 01:23 · LAX 10:23 · JFK 13:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.