RT,据说是传说中的大数据开发,洗日志
1
sergio10 2019-01-04 18:52:29 +08:00 via iPhone
第一份工作就能去百度正编太好了 不要犹豫赶紧去
|
2
Wisho 2019-01-04 20:53:55 +08:00
还不错,百度的数据量刚刚的。同是洗日志,难题和问题会多很多。
别人日均洗 100GB,在百度你的业务搞不好要日洗 10TB,应该能学到不少。 |
3
jirryzhang OP @Wisho 你确定不是逗我的吗?洗日志不管是 TB 还是 PB 有啥区别,反正写 ETL 程序处理字符串而已,感觉是个人都能做啊
|
4
Wisho 2019-01-05 22:32:03 +08:00
@jirryzhang 我确定没有逗你,我在 BAT 其中一家做过类似的东西。
你试试从毫无时效要求的洗数据出报表,再渐渐到有时效性要求的需求( 2h 内跑完 xx 天的数据,出 xx 项统计量),再到交互式查询( xx 秒内跑完,研究预热机制,研究计算引擎)。 你真以为就是表面看起来那么简单吗? |
5
Wisho 2019-01-05 22:39:15 +08:00 1
@jirryzhang 还有,你说的对,程序逻辑大概就是处理字符串。但是你上游要对接 mq 或者一些日志采集中间件,下游要对接存储组件吧( low b 一点的就说 hbase,es 这种好了)?假设你在小公司洗 100+GB 数据,随便洗随便存吧,开源组件用起来,横向拓展 10 个、20 个节点好像能搞定耶。假如到了 100+TB 级,搞不好开源组件靠不住,或者需要深度定制。再深入一步,到了 100+PB 级,难道不需要任何魔改,直接装社区版就能用?
单纯说“洗日志”一个需求的话,确实没啥区别,代码逻辑都是那样处理字符串,substring 一下,组合一下,拼成一个个的 k-v 弄出去。但是这个东西背后有多少问题你可能需要好好地深思一下吧? |
7
jirryzhang OP @Wisho 唉,可是时效性要求不高,大都是离线场景,锦上贴花的东西,感觉也不好出绩效
|
8
jirryzhang OP @Wisho 而且处理框架这层有 inf 做,我这层更像是填充业务代码的...
|
9
zcguo 2019-01-07 09:28:27 +08:00 via Android
能不能问一下这个岗位面试考啥了,我也想去面这个岗位
|
10
liamli 2023-05-09 15:03:37 +08:00
ETL 还是个岗位呀, ETL 这个工作在大数据里处于什么级别呢? 是否可以理解为就是数据清洗的工作?
|