发发牢骚。公众号 URL: https://mp.weixin.qq.com/s/0w5t_KkHRLXkEY1_qbdTtw,其实就是用 eBPF 实时记录每个虚机 /容器上的一些网络监控指标,但是有几个问题。第一:这个东西压根就不开源,难道我们自己从头做一个吗?第二:我们内核是 3.10 的,如果想用 BPF 怎么也得是 4.4 的内核(公众号说的)。第三:感觉组内实力达不到能做出这种东西。第四:感觉现在根本没有人关注网络层面的问题,排查问题就会 ping 和 telnet,根本不会考虑别的指标。
1
CallMeReznov 2021-08-03 09:38:44 +08:00
领导:我没钱,但我要这个,我不听,我必须要这个!
虚拟机监控上 zabbix 不就完了嘛.. |
2
ChevalierLxc 2021-08-03 09:42:16 +08:00
从你们公司感觉,ping 和 telnet 就够用了。。
|
3
firemiles 2021-08-03 09:42:17 +08:00
推荐一个开源工具可以试试,虽然也要求 4.14 https://github.com/cloudflare/ebpf_exporter
|
4
nuk 2021-08-03 09:48:29 +08:00
3.10 支持 kprobe 的,原理类似,你用 systemtap 或者 ktap 也是一样的
|
5
salmon5 2021-08-03 10:11:46 +08:00
这玩意公有云厂商有用(协助客户分析问题,扯皮的时候用),一般的公司没什么用
|
6
zhs227 2021-08-03 10:19:16 +08:00
一般没太大用处,另外这个 kernel 是真的要升级。
|
8
liuxu 2021-08-03 10:26:53 +08:00 1
3.10 ,一看就是 centos,赶紧切 debian10 保平安
|
9
ivyliner 2021-08-03 10:31:09 +08:00
一直挺关注 eBPF 的.
看了你发的公众号, 阿里选择 BCC 并不是特别 hardcore, 监控 daemon 调用一堆 python, 并不是特别优雅. 其实难度不是很大. 你说的不开源的话, 其实不是很能成立. 1. BCC 是开源的, 里面的网络相关的指标其实已经有很多工具, 大部分是 Python + C 改改就好了. 具体代码可以看看 https://github.com/iovisor/bcc/tree/master/tools 下面的 tcplife, tcpstate, tcprtt 等大概明白怎么做的. 另外文章说的 ss 也是开源的, 用心肯定能找到. 2. 内核版本确实是个问题, 这个可以和领导沟通一下, 看看他的想法, 如果业务没有动力升级内核的话, 那么可能要改变技术方案, 采用 kernel module 等. 3. 不要妄自菲薄, 大公司做的东西难度并不是高不可攀, 很多时候是因为业务迫使大公司要去解决 XXX 问题. 如果在小公司的心态是我们的业务很小, XXX 不重要, 那么自己其实挺难提高的. 4. 网络层面的问题, 只能说你遇到的问题少, 排查问题就只会 ping 和 telnent 那是你自己会, 不代表别人不会 wireshark, bcc 等工具. |
10
swulling 2021-08-03 10:31:26 +08:00
1. Kernel 不升是绝对做不到的。
2. 这个东西的难度不算太高,但是也不低,对网络以及 eBPF 有深入的了解才行。 |
11
agassi_yzh 2021-08-03 10:31:30 +08:00
领导其实是找个借口把你干走?
|
12
Jface 2021-08-03 11:41:16 +08:00
这个需求得加钱,加入, 加时间
不加 ? 那做不了(摊手) |
13
zhoudaiyu OP @CallMeReznov 其实我们有 Falcon,但是上了容器以后不好使了,只能依赖 node-exporter
@ChevalierLxc 我还会用 ss tcpdump nc dropwatch 啥的…不过也就这样了 |
14
zhoudaiyu OP @firemiles 内核硬伤,可能得用 systap 之类的
@nuk 是的,但是开发起来有些困难 @salmon5 阿里的公众号也是这么说的 @zhs227 可能以后不想背锅了(从来没有想过 @cubecube 准确来讲 rhel7 @liuxu 估计我们部门老大说都不行,动作太大了,收益却没那么大,反正业务能跑 @ivyliner 首先,谢谢大佬提供的项目!第二,确实不能用 bpf 方案。第三,我觉得小厂程序员都有这种想法吧?第四,我在用 wireshark nc dropwatch 等等工具,但是其他人好像比较爱用那俩 @swulling 内核是不可能升级的。我身为运维,但是对网络不熟悉,说起来都惭愧 @agassi_yzh 那倒没有,还是想先看看能不能找现成的东西 @Jface 啥都没有,用爱发电 |
15
janxin 2021-08-03 14:14:18 +08:00 via iPhone
老板是要个样子,底层技术老板懂吗?
|
19
offswitch 2021-08-03 16:08:12 +08:00
刚刚看了一下公众号上这篇文章,说是过段时间就要开源
|
20
tankren 2021-08-03 16:18:04 +08:00
口头立项可还行 商业论证都不需要
|
21
pengtdyd 2021-08-03 18:04:11 +08:00
最怕这种自己不懂,还觉得自己懂的老板
|
22
levelworm 2021-08-03 18:42:29 +08:00
硬 hack 一个样子货,不知道技术上行不行?
|
23
kekxv 2021-08-03 20:07:36 +08:00 via iPhone
其实,是不是想复杂了,他只是想要知道服务器有没有掉线(其他的他也不关心🐶),直接定时 curl 指定 url 记录时间,超过就发送微信通知🐶
|
24
zhoudaiyu OP |
25
hasdream 2021-08-04 08:47:53 +08:00
bcc-tools rhel7 也是可以用的 但是一些高级特性就用不了。 基本的 memleak tcpstate tcplife 都是可以用
|