V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Distributions
Ubuntu
Fedora
CentOS
中文资源站
网易开源镜像站
dante6733
V2EX  ›  Linux

一个运维可以管理 5 万台服务器吗?怎么管?

  •  
  •   dante6733 · 2021-09-24 14:18:41 +08:00 · 13671 次点击
    这是一个创建于 1148 天前的主题,其中的信息可能已经有所发展或是发生改变。

    理性讨论,如果有 5 万台服务器,虚拟机和物理机都行,一个人能管好吗?如果一个人管不好,那怎么管?

    有没有大佬有这么多台服务器的管理经验?也希望能够分享一下经验,改进大家的运维效率。

    112 条回复    2021-10-21 16:13:16 +08:00
    1  2  
    liuxu
        101
    liuxu  
       2021-09-25 13:12:02 +08:00
    既然 100 条了,那我翻个页
    wangyzj
        102
    wangyzj  
       2021-09-25 13:48:01 +08:00
    假设每天坏一块硬盘
    yidingz
        103
    yidingz  
       2021-09-25 14:13:14 +08:00
    这么说吧,一台机器的寿命是三年算 1000 天,就算这五万台机器都是能运行三年不出错不坏,轮流着换。平均每天要下线 50 台机器,上线五十台。

    一个人,就每天拔两个机架 50 台机器的网线电线,拉出来,装 50 台新机器进去,插线,(假设系统都是自动 provisioning ),嗯我估计够呛。就给你 50 台 1U 的机器让你拉去仓库,你就累残了。

    实际机器跑个一年半载的可能就要维护,实际每天硬件维护超过 100 台机器,嗯 996 估计是不行,007 都扛不住。
    gvhao001
        104
    gvhao001  
       2021-09-25 19:25:19 +08:00 via Android
    管理?什么叫管理!开机关机算不?保持清洁算不?
    js8510
        105
    js8510  
       2021-09-26 02:22:40 +08:00   ❤️ 1
    看你怎么定义 “运维”。。
    我是 oncall 过比五万台更多的机器的服务。高度自动话以后。。其实 5 万还是 10 万台机器,差距不大。manual operations 也不是很多。。甚至有>50%的时间写代码,开会什么的。更多的就是:
    - 工作时间 alert 都看一看。
    - 非工作时间 高 priority 的 alerts 看一看。低的直接忽略。
    - 出事了有各种 data set, logging 。 有经验的话很快就能找到问题大致方向。熟悉了(因为出了 SEV 都要 review 的)也能知道大致会经常遇到的问题。
    - 搞不定就把别的 oncall 拉起来。怀疑 downstream 拉 downstream .怀疑是谁的 change 就把谁叫起来问。纯粹需要帮助也可以拉别人起来。
    - oncall 结束以后总结一下,noisy alerts 想办法调一调。有些简单的问题想一想能不能搞个 auto remediation(比如有些情况明显是 auto-scale 有问题,那就在这种条件下让他自己关了 and scale to max size 等第二天上班时间再解决。这样你非工作时间就不用搞这些了。。还有比如某些 feature 还不问题也不中要,那你监控到它挂了直接给他关了然后把 alert forward 给 onwer 等天亮了再说 等等等).

    所以我觉得是需要点经验的事情。。但是多数时间一个人搞的定的。当然偶尔也有倒霉的时候。
    guo4224
        106
    guo4224  
       2021-09-26 12:00:45 +08:00
    5 台和 5 万台没区别吧
    flyingghost
        107
    flyingghost  
       2021-09-26 12:09:11 +08:00
    老板:公司成立起来了,广告也打出去了,客户也忽悠到了。现在就差开工干活了。
    小王,公司现在已经有 5w 台服务器了,你得出个方案,负责管好。
    小王:我才刚入职就我一个运维怎么管 5w 台?唔。。。先上 V2 求个方案吧。
    xingtian
        108
    xingtian  
       2021-09-26 12:38:48 +08:00
    5 万台运维我不知道,但是我现在一个人管理 10 万台终端跟服务器的网络安全跟中毒的问题,还能成天摸鱼
    jsion
        109
    jsion  
       2021-09-26 15:02:30 +08:00
    真搞笑,一个运维连传话筒都做不了,每天审批工单就够整活了,别说在庞大机群规模底下做运维。感觉就是打广告拿需求的。
    你们充其量也就一个做监控平台的,难道也想把整个 IaaS 所有管理层面的工作都给抹平了,你真给想屁吃,先追齐深信服的云解决方案再说吧,最多就上层运维平台的一个子系统,各种虚拟化计算、存储、网络管理、流程引擎、服务编排、迁移和灾难恢复、计费治理等基础资源纳管能力都没有,谈什么服务器管理,真就当服务器管理就开关机 /遇障重启呗
    而想要靠一个平台系统来解决这些问题几乎是不可能的,功能能齐备就很不容易了,更何况各公司架构和技术栈千奇百态,光采购适配就有的搞,一般大点公司都是自研的,外采管理压根就不用想,出了问题都是自己的命,哪敢交给别人
    一个人,如果没有完整成熟且高度自动化的基础平台支撑各项业务,那么可以在那等死了
    billwang
        110
    billwang  
       2021-09-27 08:32:10 +08:00
    5w 台服务器,其实不用讨论答案,lz 你到有 5w 台服务器的机房看一看自己就会有答案了。光说数字真的感觉不出什么。
    dream10201
        111
    dream10201  
       2021-09-27 09:29:19 +08:00
    每周挖一天
    LuBenwei6p
        112
    LuBenwei6p  
       2021-10-21 16:13:16 +08:00
    别吹了真的 吹有个度,如果都是矿机 客户的机器 你还管毛阿坏了就坏了,如果是公司自己的产品 你一个人来给我维护 50000 台试试 别说 50000 台 5000 台都是问题
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   996 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 20:49 · PVG 04:49 · LAX 12:49 · JFK 15:49
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.