V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jahan
V2EX  ›  数据库

怎么搭建一个大数据分析平台呢?想搭建一个自用的平台,数据量也不是很大 5T 左右吧

  •  
  •   jahan · 2018-02-05 22:29:12 +08:00 · 5471 次点击
    这是一个创建于 2516 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在想如何才能搭建一个大数据平台呢?有没有文档可以参考? 数据库都文本形式的, 有没有可视化的数据分析工具呢?拖动组件实现分析?

    96 条回复    2018-02-09 10:48:23 +08:00
    wangkangluo1
        2
    wangkangluo1  
       2018-02-05 22:36:39 +08:00 via iPhone
    ambari
    hellojinjie
        3
    hellojinjie  
       2018-02-05 22:37:55 +08:00
    5T 也不是很大,直接 load 到数据里去就可以了。

    我也想知道有啥可视化的数据分析工具,而且还能拖拉拽。
    jahan
        4
    jahan  
    OP
       2018-02-05 22:53:27 +08:00
    @hellojinjie 还是用数据库?还是建大数据平台?貌似需要不少机器啊
    TimePPT
        5
    TimePPT  
       2018-02-05 23:04:50 +08:00 via iPhone   ❤️ 1
    5T 也敢称大数据了…… Hadoop 哭了
    victor97
        6
    victor97  
       2018-02-05 23:09:54 +08:00 via Android
    ELK
    SoulSleep
        7
    SoulSleep  
       2018-02-05 23:23:09 +08:00
    ELK 是什么鬼。。。

    LZ 给你一个捷径~~搜“ CDH ”
    lfzyx
        8
    lfzyx  
       2018-02-05 23:39:54 +08:00
    jahan
        9
    jahan  
    OP
       2018-02-05 23:42:04 +08:00
    @TimePPT 莫哭,说了不大。就是想尝试搭建一个平台,分析一下而已。
    有没有不用消耗那么多机器的方案呢
    alcarl
        10
    alcarl  
       2018-02-05 23:51:55 +08:00 via Android
    5t 对于大数据平台不大,但你要是想买一台机器直接实现来拖拉拽保证你爆炸。。。。
    jahan
        11
    jahan  
    OP
       2018-02-05 23:52:38 +08:00
    @alcarl 那还是要配足机器?
    YYyoung
        12
    YYyoung  
       2018-02-06 00:01:57 +08:00 via iPhone
    FineBI
    alcarl
        13
    alcarl  
       2018-02-06 00:05:59 +08:00 via Android
    @jahan 并不是机器的问题,要预先做些处理汇总啥的,5t 直接拖,拖一下等不知道多久才能拖下一下。。。。可视化微软有 powerbi,也有免费版
    alcarl
        14
    alcarl  
       2018-02-06 00:10:11 +08:00 via Android
    随便分析一下的话,常规的做法是弄个数据库,oracle 或者 sqlserver,根据需要抽取一些中间表,然后进行统计分析。幻想扔到大数据平台自动挖掘一下就能出美丽的报表和想要的数据的我只能呵呵了。开源大数据框架的小规模应用时的成本明显高于传统数据库
    jahan
        15
    jahan  
    OP
       2018-02-06 00:12:28 +08:00
    @alcarl 那倒没有幻想直接出报表。主要是看到好多帖子说整合这些组件就要很久。。。所以想找个合适的方案
    isundust
        16
    isundust  
       2018-02-06 00:21:14 +08:00 via Android
    你可能需要个企业版 bdp
    azh7138m
        17
    azh7138m  
       2018-02-06 00:26:02 +08:00
    @alcarl 什么 56C 1T 内存的机器我觉得不会爆炸(
    alcarl
        18
    alcarl  
       2018-02-06 00:28:17 +08:00 via Android
    @jahan 试试 powerbi 微软的东西从来都是好用的不行,但数据量的问题要自己处理
    alcarl
        19
    alcarl  
       2018-02-06 00:33:02 +08:00 via Android
    @azh7138m 会炸的即使你弄来 5t 内存也有很多不能并发的计算会要你命。。。。即使你都能并发,刷一遍 5t 也不是点一下就出来的,所以对于拖拽这种对即时响应要求快的,还是要降数据量。否则拖一下等半天自己都会骂娘。。。。。
    jahan
        20
    jahan  
    OP
       2018-02-06 01:04:55 +08:00
    @isundust 看 bdp 的介绍貌似是可以拖拽,不过这个底层是 greenplum 吗?
    jahan
        21
    jahan  
    OP
       2018-02-06 01:05:40 +08:00
    @SoulSleep 主要是不知道如何才能搭建一个可用的环境,有没有 step by step 的教程呢
    manfred4527
        22
    manfred4527  
       2018-02-06 05:46:42 +08:00 via iPhone
    SAS SPSS
    defunct9
        23
    defunct9  
       2018-02-06 08:09:05 +08:00 via iPhone
    自搭 hadoop
    jahan
        24
    jahan  
    OP
       2018-02-06 08:16:12 +08:00
    @defunct9 机器最低需要多少呢,不知自用的话,需要何种性能
    bayker
        25
    bayker  
       2018-02-06 09:05:35 +08:00
    借楼提问: 数据存储到数据库( elasticsearch )后,是用 elasti 的 API 方法做数据分析,还是有其他工具可以自动分析?
    jahan
        26
    jahan  
    OP
       2018-02-06 09:20:29 +08:00
    @bayker 感谢提供又一个信息
    rockyou12
        27
    rockyou12  
       2018-02-06 09:23:53 +08:00
    @bayker kibana 可以直接可视化
    suixn
        28
    suixn  
       2018-02-06 09:25:36 +08:00
    clickhouse
    defunct9
        29
    defunct9  
       2018-02-06 09:27:34 +08:00   ❤️ 1
    @jahan 单台 Dell R730 就可以。虚拟出来 kvm 搭建 hadoop,减配的话,两个 namenode,一个管理节点,三个 datanode。足够了,4G×2+4G+32G×3,128G 内存够了。硬盘就越大越好
    defunct9
        30
    defunct9  
       2018-02-06 09:28:07 +08:00
    @jahan 也可以直上 aws 的 emr,按需付费。
    v2xe2v
        31
    v2xe2v  
       2018-02-06 09:33:49 +08:00
    elk + kafka
    bzzhou
        33
    bzzhou  
       2018-02-06 09:41:46 +08:00
    @defunct9 kvm 这个对 IO 性能多伤呀

    如果一台机器,就直接多挂磁盘,replication 设置为 1 (备份好原始数据),直接在本地文件系统开跑
    fireapp
        34
    fireapp  
       2018-02-06 09:44:10 +08:00 via Android
    druid 很好用,使用官方套件 imply,不依赖第三方存储,支持 sql,可视化,拖拉,还是开源免费的,对内存要求不高,可以试试
    defunct9
        36
    defunct9  
       2018-02-06 09:49:39 +08:00
    @bzzhou emr 也是开 kvm 的 cluster,io 也不伤啊,hadoop 对 io 的要求不高撒。
    liyer
        37
    liyer  
       2018-02-06 10:07:32 +08:00
    elasticsearch+kibana
    jahan
        38
    jahan  
    OP
       2018-02-06 10:17:02 +08:00
    @madNeal 非常感谢。
    @liyer 非常感谢。
    这个是不是借用传统数据库就可以了?
    jahan
        39
    jahan  
    OP
       2018-02-06 10:17:52 +08:00
    elasticsearch+kibana 这个模式是不是都不用数据入库?
    jahan
        40
    jahan  
    OP
       2018-02-06 10:19:36 +08:00
    很多时候的应用场景是,多人之间的关联关系,比如转账,比如物品交换等等。
    jahan
        41
    jahan  
    OP
       2018-02-06 10:21:10 +08:00
    @defunct9 貌似要不少机器,步骤好像也比较复杂,不过确实可以学习一下。
    rockivy
        42
    rockivy  
       2018-02-06 10:42:42 +08:00
    推荐 impala + superset
    jyf
        43
    jyf  
       2018-02-06 11:20:40 +08:00   ❤️ 1
    只有 5T 的话 ELK 足够了 不过有个坑 ELK 刚学的时候那个查询很烦很烦
    Jacklee
        44
    Jacklee  
       2018-02-06 11:22:55 +08:00
    可以上 cloudera
    jahan
        45
    jahan  
    OP
       2018-02-06 11:48:04 +08:00
    @jyf 目前测试是 5T,以后会增长。
    jahan
        46
    jahan  
    OP
       2018-02-06 11:48:21 +08:00
    @rockivy 感谢提供信息。
    jahan
        47
    jahan  
    OP
       2018-02-06 12:22:41 +08:00
    @defunct9 730 ?弄过 720,噪音喜人啊。
    aws 得服务的话,数据会被 amazon 拿走?有保证吗
    winglight2016
        48
    winglight2016  
       2018-02-06 12:41:29 +08:00
    http://kylin.apache.org/cn/
    用这个吧,开源一揽子方案,我之前就想用,后来没时间,LZ 用过了发个测评啊
    defunct9
        49
    defunct9  
       2018-02-06 12:58:13 +08:00
    @jahan 720 都没了。你的数据 aws 估计不感兴趣,集群是用完就没了的,数据会放到你指定的 bucket 里。刚弄完 emr 的一单小活,所以比较清楚。
    jyf007
        50
    jyf007  
       2018-02-06 14:15:32 +08:00
    @winglight2016 看成了 https://en.wikipedia.org/wiki/Kylin_%28operating_system%29 这个 redhat 了,因为天天碰的缘故
    tflz514
        51
    tflz514  
       2018-02-06 14:20:55 +08:00
    考虑商用么?大概是什么数据?
    jahan
        52
    jahan  
    OP
       2018-02-06 14:22:36 +08:00
    现在我觉得可能要解决得是技术路线,硬件准备等一系列问题了。
    大家得讨论太有价值了。
    jahan
        53
    jahan  
    OP
       2018-02-06 14:37:25 +08:00
    @YYyoung 接触过,感觉背后是 greenplum 啊
    jahan
        54
    jahan  
    OP
       2018-02-06 14:39:21 +08:00
    单台 Dell R730 就可以。虚拟出来 kvm 搭建 hadoop,减配的话,两个 namenode,一个管理节点,三个 datanode。足够了,4G×2+4G+32G×3,128G 内存够了。硬盘就越大越好

    ========
    上面这些有文档吗?
    laxenade
        55
    laxenade  
       2018-02-06 15:03:33 +08:00 via Android
    看一下 aws glue 吧 能满足你拖拽控件和不需要什么服务器的要求。至于怎么可视化,结果都在 s3 了随便找个 BI 就可以了,在这里就不推荐 aws quicksight(实在太垃圾), 有钱直接上 tableau。
    defunct9
        56
    defunct9  
       2018-02-06 16:51:26 +08:00
    @jahan 搭过 600 台的集群,一开始做试验的时候用的 saltstack 的脚本,自动部署,两个 namenode,一个 hue+hive+pig+管理,三个 zookeeper+journalnode,3 个 datanode,用的 cloudera。没整理文档。没什么难度
    abmin521
        57
    abmin521  
       2018-02-06 17:05:48 +08:00 via Android
    多少 PB 才叫大数据?
    rayray314
        58
    rayray314  
       2018-02-06 18:16:47 +08:00
    有钱 Tableau,成熟的商业化方案。

    也可以 POWER BI,甚至 EXCEL 里的 POWER QUERY+POWER PIVOT 都可以。
    WildCat
        59
    WildCat  
       2018-02-06 18:30:47 +08:00
    看起来是社工库。
    fange01
        60
    fange01  
       2018-02-06 18:58:02 +08:00
    @WildCat 有什么好方案
    winglight2016
        61
    winglight2016  
       2018-02-06 20:39:27 +08:00
    @jyf007 是啊,一开始别人介绍我也以为是那个操作系统,看了一下网站发现 UI 设计的不错,应该还可以吧
    yingfengi
        62
    yingfengi  
       2018-02-06 21:27:33 +08:00
    5T 大数据? 不会是什么裤子吧
    realpg
        63
    realpg  
       2018-02-07 00:22:44 +08:00
    @jahan #54
    730 多贵……
    折腾 N 手 720 如果对 CPU 要求不高,甚至 710 ( 24 线程 96G 内存也就两三千块钱搞定)
    机房一丢美滋滋
    likuku
        64
    likuku  
       2018-02-07 00:27:46 +08:00
    @jahan aws 可以全加密,密钥都在你手上。当然,得海外 aws,(国内 aws 没有 根账号)
    jahan
        65
    jahan  
    OP
       2018-02-07 01:11:23 +08:00
    @realpg 有考虑过,不过确实噪音感人啊,目前还没有机房,人机一间房。
    jahan
        66
    jahan  
    OP
       2018-02-07 01:13:46 +08:00
    @realpg 话说有这么便宜吗
    realpg
        67
    realpg  
       2018-02-07 01:15:55 +08:00
    @jahan #66
    就是这么便宜……
    我搞机房的,我这里用户,节约成本玩法的租机客户全是 1366 平台…… 然后略微要新一点就 E5v2
    现在普遍应用都是 IO 敏感,cpu 性能早就过剩了……
    realpg
        68
    realpg  
       2018-02-07 01:16:48 +08:00
    @jahan #66
    举例吧,这边大带宽的用户,国内前几名的大视频站的 cdn 边缘节点,缓存,几乎全是这些垃圾二手服务器跑的
    jahan
        69
    jahan  
    OP
       2018-02-07 01:28:01 +08:00
    @realpg 长见识了。。。。是个解决硬件问题的办法。
    toono
        70
    toono  
       2018-02-07 08:55:42 +08:00
    elk 或者 druid + superset。
    yanzixuan
        71
    yanzixuan  
       2018-02-07 09:08:45 +08:00
    @jahan elasticsearc 就是存数据啊,等效于数据库。。。
    jahan
        72
    jahan  
    OP
       2018-02-07 09:22:01 +08:00
    @realpg 搜索了一下某宝,还真没发现有 2-3000 能搞定得 24/96g 二手?是不是关键字错了?
    fff333
        73
    fff333  
       2018-02-07 09:55:07 +08:00
    tableau 是很不错的
    jahan
        74
    jahan  
    OP
       2018-02-07 10:08:47 +08:00
    @fff333 商用付费吧,而且存储数据怎么弄?数据库?hadoop ?
    zhzy0077
        75
    zhzy0077  
       2018-02-07 10:17:19 +08:00 via Android
    realpg
        76
    realpg  
       2018-02-07 11:07:32 +08:00
    @jahan #72
    你买整机怎么可能搞定……
    自己折腾 这东西我都搞了两百多套了 现在机房的低价销售的虚拟化集群都是这玩意
    HP DELL 的准系统 自己配 CPU 内存去 内存 4G 也就 50 左右 插满 24 条就是 96 了 ¥ 1200 机框 HP DELL 的 1366 也就几百元 CPU 两颗看你主频选择,200~600 之间
    以上都不算硬盘 存储系统从来都是单算的
    jahan
        77
    jahan  
    OP
       2018-02-07 11:50:11 +08:00
    @liyer 这个貌似单机就可以操作。麻烦请教下有 elk 三者结合比较完整的教程吗?
    jahan
        78
    jahan  
    OP
       2018-02-07 11:54:53 +08:00
    @liyer 貌似能够比较快速的部署,话说这种对日志分析应该也能对记账流水类的数据库导出文件分析吧。
    feverzsj
        79
    feverzsj  
       2018-02-07 11:55:21 +08:00
    单机就能搞定
    9songs
        80
    9songs  
       2018-02-07 12:01:28 +08:00
    @WildCat +1 2333
    liyer
        81
    liyer  
       2018-02-07 14:57:54 +08:00
    elasticsearch 的主要功能是用作搜索引擎
    如果你只需要对 rawdata 进行分析,用可视化工具就可以了。
    推荐 Microsoft power BI, 支持超多种数据格式,包括 txt 文本和 log 文件。
    jahan
        82
    jahan  
    OP
       2018-02-07 15:28:39 +08:00
    @liyer 基本上是对格式化的文本进行处理。觉得这样子能够减少建库搭台的麻烦。
    elk 这种确实挺好的,看了下文档,问题是变化都太快了,官方的 document 都没有很仔细的写部署方案啊,网上的一堆都已经是过时了,(一个 head 就 plugin 了好久,发现其实早在 5.x 就不支持了)
    求教一个能够比较完整搭建 elk 环境的文档位置。
    power BI 也在试用。
    defunct9
        83
    defunct9  
       2018-02-07 15:35:02 +08:00
    jahan
        84
    jahan  
    OP
       2018-02-07 15:54:10 +08:00
    @defunct9 非常感谢。非常详细的参考,不过这个加载 head 的方法已经失效了,5.x 之后就不再支持了。
    组件之间的变化太快了。
    defunct9
        85
    defunct9  
       2018-02-07 15:58:54 +08:00
    @jahan 是你要用最新的啊。那就得看最新的文档。你退回一个版本,这个方法还没失效
    vanvesee
        86
    vanvesee  
       2018-02-07 17:54:02 +08:00
    自己用还是临时工程啊? 取决于手头的 Money...
    如果团队小,建议用云端服务做数据存储和处理,需要分析的数据拉取后做自助分析( BI 工具:帆软、Tableau 等)。
    否则硬件投入不算,后期的运维成本其实挺大的,当然你说这都不是事、动手能力强,那你就自己捣鼓也行。
    jahan
        87
    jahan  
    OP
       2018-02-07 20:55:25 +08:00
    @vanvesee 万事自己倒腾时间成本也很高。
    不是临时工程,不过预算也有限。
    所以想找一个比较成熟的方案(学习路经)。减少时间成本,硬件成本。
    fireapp
        88
    fireapp  
       2018-02-07 21:32:19 +08:00 via Android
    先清洗能砍掉一多半数据,再丢进 druid 直接合并压缩到 1 / 3,最后数据量 1t 左右,秒级查询,理论上可行
    前期清洗用 drill,批清洗就行,不用定义结构直接 sql 就是干,硬件的话 16 ~ 32G 内存,6 ~ 8T 硬盘的台式机就行了
    不用上 hadoop,维护麻烦
    jahan
        89
    jahan  
    OP
       2018-02-08 02:10:12 +08:00
    @defunct9 搭过 600 台的集群,一开始做试验的时候用的 saltstack 的脚本,自动部署,两个 namenode,一个 hue+hive+pig+管理,三个 zookeeper+journalnode,3 个 datanode,用的 cloudera。没整理文档。没什么难度=================================
    请教一下 saltstack 脚本哪里可以找到?谢谢。
    jahan
        90
    jahan  
    OP
       2018-02-08 02:16:30 +08:00
    @fireapp 非常感谢提供思路。不过 5t 已经是清洗过的数据了。elk 的方案也是类似直接 rawdata 开干。hadoop 的好处是有个地方保存,不过开始设计文件目录也是比较麻烦的事儿。
    defunct9
        91
    defunct9  
       2018-02-08 09:10:11 +08:00
    @jahan 得自己写,让我帮忙搭也没问题。
    defunct9
        92
    defunct9  
       2018-02-08 09:57:22 +08:00
    @jahan http://www.54tianzhisheng.cn/2017/09/09/Elasticsearch-install/ 新版的 es 和 head 安装,写的很不错
    idcspy
        93
    idcspy  
       2018-02-08 18:53:10 +08:00
    火眼金睛个人破案神器中国的 I2
    月光宝盒智能清洗数据团队协作分析
    天罗地网大数据+机器智能+人脑智慧海量数据挖掘
    jahan
        94
    jahan  
    OP
       2018-02-08 20:41:24 +08:00
    @defunct9 非常感谢,少不了要请教你。
    上面提供的链接也非常有用,准备先 elk 试试。
    jahan
        95
    jahan  
    OP
       2018-02-08 20:43:53 +08:00
    @idcspy 你这回复这么幽默,要我怎么回答呢,谢谢鼓励(挖苦)吧。如果再实在点透露点细节那就更好了。

    感谢大家提供的信息,非常有价值。
    idcspy
        96
    idcspy  
       2018-02-09 10:48:23 +08:00
    我没说清楚,你也没看懂,是个情报分析软件,就叫火眼金睛,摆渡任何一行就知道了,不过这软件不针对个人,有点麻烦.
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2683 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 11:46 · PVG 19:46 · LAX 03:46 · JFK 06:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.