最近公司在做监控方面的选型,想了解一下大家的业务场景及监控技术栈 /架构选型
可以分为三个方向展开
1.业务监控(链路追踪、慢查询慢调用等)
2.基础监控(虚拟机 / 容器 CPU 、Network 、Mem 等基础指标)
3.运维监控( K8s 、物理机、虚拟机等管理)
其中第三点可以先不考虑,SRE 团队可以接手
或从 Metrics,Tracing,Logging 展开,一些搭配方案
或现有三方开源监控全链路解决方案、Open-Falcon 、Nightingale
由于楼主是新手 初探这个领域,想跟大家交流进步一下 错误之处多多包涵
|  |      1Sparkli OP 基础监控包括第三方中间件监控,Redis 、ElasticSearch 这种 不过了解不多,大部分都有自身的监控数据 API | 
|      2hadesy      2021-07-31 23:18:40 +08:00  2 prometheus/thanos + skywalking + elk | 
|  |      3dream4ever      2021-08-01 00:07:55 +08:00 via iPhone 我们不是互联网公司,买的阿里云的服务器,自带基础监控功能,感觉日常业务基本够用。 | 
|  |      4wombat      2021-08-01 00:29:47 +08:00 via iPhone 2 楼+1 | 
|  |      5mreasonyang      2021-08-01 03:12:43 +08:00 via iPhone 主流方案就是二楼所说的这些搭配使用,整合的成套实现可以参考 cat https://github.com/dianping/cat 。总的来说想做好监控不仅仅需要一个好的监控服务端实现,客户端基础组件层面的埋点上报相关工作也是重要且繁多的 | 
|  |      6wellsc      2021-08-01 03:29:08 +08:00 via iPhone 物理机的话,zabbix 也还可以 | 
|  |      7daxiguaya      2021-08-01 10:18:57 +08:00 可以业余去"了解"下 https://opentelemetry.io/ | 
|      8lplusk      2021-08-01 10:37:59 +08:00 主流开源方案就是 2 楼说的那个,另外很多大厂会有自研方案。做好监控的真正难点不在于技术选型,而在于监控点覆盖、报警阈值调教、值班应急这一整套流程。 | 
|  |      9dreamramon      2021-08-01 11:18:37 +08:00 最开始用 prometheus 和 skywalking,最后都是自研,这样才好和 ci/de,内部通讯工具相结合。 | 
|      10Alliot      2021-08-01 12:38:55 +08:00 via Android 传统服务的系统基础监控+基本业务监控,nightingale 基本可以一套解决,中小型企业 v3 版本甚至可以包揽 cmdb 、任务执行平台的角色。 k8s 微服务还是 prometheus 全家桶更适合。 | 
|      11Alliot      2021-08-01 12:40:24 +08:00 via Android  1 @Alliot falcon 可以不用考虑了,夜莺 nightingale 的原班人马,99%的生态兼容。  我司就是从 falcon 转向夜莺的。 | 
|      12saytesnake      2021-08-01 17:36:41 +08:00 nightingale + Pinpoint | 
|  |      13wongskay      2021-08-01 21:49:47 +08:00 prometheus | 
|  |      14Sparkli OP @dreamramon 主要顾虑点是定制化需求很高吗 | 
|  |      16qq7790586      2021-08-01 22:14:00 +08:00 内部监控用什么啊??? | 
|  |      17Sparkli OP @mreasonyang 这个看起来不错,学习了 不过有二开需求 如果是用 GO 写的更好了 | 
|      20Kyle18Tang      2021-08-02 11:31:34 +08:00 @daxiguaya #7 就等 Spring Cloud Sleuth 正式支持它了 | 
|  |      21BQsummer      2021-08-02 11:51:34 +08:00 2L+1,APM 选型上还有 cat 、zipkin 、pinpoint ; prometheus 不能集群部署,单点有瓶颈 |