V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
rwecho
V2EX  ›  Ubuntu

Ubuntu20.04,出现卡住,没有任何响应,怎么调查?

  •  
  •   rwecho · 336 天前 · 2814 次点击
    这是一个创建于 336 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近有三台 ubuntu20.04 服务器,都是安装的桌面版本,最近有三台频繁出问题。(这三台都是用的国内的内存和硬盘品牌)

    出现的问题特征是没有任何响应,但是灯光正常,不是睡眠状态。如果正常接显示器了,显示器会有输出,甚至时间还在向前走,但是硬盘里面没有日志。

    日志 日志( syslog )显示从 4.24 11:36~4.26 13:38 之间没有日志产生

    系统 这是 4.26 上午 11:33 拍的照片。这个时候系统已经没有任何响应了, 包括 ssh 键盘鼠标,其中运行的服务也没有产生日志。

    这是 last 的信息 last

    我这里只看了 syslog syslog.1 日志,不知道从哪里还能看到更多硬件信息和状态。另外这三台机器都有 2060 显卡和 cuda 驱动。

    现在的有几个疑惑:

    1. linux 有没有类似蓝屏机制
    2. 如果是内存问题,机器的时间还在运行正常不?
    3. 如果是内存和硬盘问题,怎么确认和找出证据。
    4. 有没有可能是显卡驱动问题,但是我们已经有 10 几台 ubuntu20.04 的机器了
    18 条回复    2023-04-27 16:05:34 +08:00
    LJNlol
        1
    LJNlol  
       336 天前
    我一般看日志用的都是 journalctl ( ubuntu 应该也有吧),可以试试看能不能找出有用的信息来。
    或许 OP 可以试着给服务器开个 ssh ,然后出问题了试着用 ssh 连上去排查一下,连不上那就是整个系统炸了一般。

    Linux 有 Kernel Panic ,但我个人没遇见过。一般桌面 linux 都是桌面环境崩掉,内核本身应该还是非常稳定的。
    希望有帮助
    fqzz
        2
    fqzz  
       336 天前
    kernel log 在 /var/log/kern.log 里面可能会有有用的信息。

    盲猜很大概率是 linux kennel 和 nvidia driver 的问题。
    rwecho
        3
    rwecho  
    OP
       336 天前
    @LJNlol #1 ssh 已经挂了。 我估计内核也挂了,我再去看看 journalctl
    LJNlol
        4
    LJNlol  
       336 天前
    @rwecho 我记得有远程调试方法,可以看到 kernel panic 的那种。但是现在这个样子我感觉是硬件问题了...比如我的笔记本清灰之后没注意散热器安装压力,冷启动的时候 CPU 发热变形与主板接触不良,然后直接死机,也是没有任何 log 。后面松了下螺丝就好了😂
    rwecho
        5
    rwecho  
    OP
       336 天前
    @LJNlol #4 我也怀疑和硬件有关系, 这批卖了 4 个机器, 三个都出问题。
    之前的批次都挺稳定的。
    LJNlol
        6
    LJNlol  
       336 天前
    @rwecho 妈的这能忍,直接杀到经销商去🤣。走采购的东西直接售后罢
    rwecho
        7
    rwecho  
    OP
       336 天前
    @LJNlol 找不到原因。



    这是刚才看的 kern.log 的日志, 也是在这个期间没有产生信息
    rwecho
        8
    rwecho  
    OP
       336 天前
    @LJNlol #6 在 jd 上面买的带 2060 显卡的 nuc

    还有没有什么办法能看卡住的时候系统发生了什么事情 😡😡😡
    duke807
        9
    duke807  
       336 天前 via Android   ❤️ 1
    alt+ctrl+F1~6 切换到终端模式
    然后看 dmesg 打印

    如果完全死掉,提前切终端模式,然后看有没有 kernel 死机打印

    更进一步,可以配置电脑硬件串口输出内核打印
    duke807
        10
    duke807  
       336 天前 via Android
    出硬件故障不能指望 log 文件,因为已经来不及保存了
    LJNlol
        11
    LJNlol  
       336 天前
    @rwecho nuc ? CPU 是可以拆卸的吗?还是整一个都是一体的?那我更怀疑硬件故障了...
    除此之外也真没啥办法了,到现在这个阶段真的很难去怀疑软件了,系统卡死的时候连 log 都记录不下来。除非整得像个搞嵌入式的一样:串口 /网口远程 Kernel DEBUG😂,如果都做到这种地步还是发现不了 Kernel Panic ,那 100%是硬件的锅了。
    abbottcn
        12
    abbottcn  
       336 天前 via iPhone
    路过……
    贴一个不太相关的我遇到的问题。

    22.04 系统,
    配置好的科学计算集群,
    用户做了一次 apt upgrade ,
    然后调度器挂了……

    所有的信息都正常,就是 srun 不跑……

    降级到 22.04 初始版本就工作了……

    所有的东西,都是 apt 安装的……

    虽然工作机器也用 Ubuntu ,现在不敢轻易 apt upgrade 操作了。
    jzphx
        13
    jzphx  
       336 天前
    有的主板必须接显示器,不然就会出现这种情况。我的就是这样,排查了很久,最后用 hdmi 欺骗器解决了
    StillLearing
        14
    StillLearing  
       336 天前
    昨天刚遇到类似的情况,跑深度学习的时候突然就崩了。Ubuntu20.04 ,动鼠标键盘没反应(卡死状态),ssh 也上不去。昨天在 V 站查了下,先用 Memtest86+跑了下内存测试,可以 PASS 。有的朋友说可能是 gnome 的原因导致的,然后我就试了试关了 gnome 服务,目前还没卡死。我也贴个 log ,各位大佬帮我也看看吧。
    顺便贴一下配置:
    AMD R5 5500
    3090TI
    NV 驱动版本:525.105.17
    ```
    kernel: [24043.430436] BUG: Bad page map in process python pte:800000034525b845 pmd:383c16067
    kernel: [24043.430445] flags: 0x17ffffc0000008(dirty|node=0|zone=2|lastcpupid=0x1fffff)
    kernel: [24043.430448] raw: 0017ffffc0000008 ffffe88f8e897308 ffffe88f8e897488 0000000000000000
    kernel: [24043.430449] raw: 0000000000000001 0000000000000000 00000001ffffff7f 0000000000000000
    kernel: [24043.430450] page dumped because: bad pte
    kernel: [24043.430450] addr:00007efb06b64000 vm_flags:08200073 anon_vma:ffffa025a9899bc8 mapping:0000000000000000 index:7efb06b64
    kernel: [24043.430452] file:(null) fault:0x0 mmap:0x0 readpage:0x0
    kernel: [24043.430456] CPU: 5 PID: 48686 Comm: python Tainted: P B OE 5.15.0-69-generic #76~20.04.1-Ubuntu
    ...
    ...
    ...
    python[48686]: segfault at ab ip 00000000004f1094 sp 00007ffe19640cf8 error 4 in python3.8[423000+1cc000]
    ```
    shijingshijing
        15
    shijingshijing  
       336 天前
    9 楼正解,这种多半是桌面环境挂了,系统可能没有崩,切命令行就行。一般更新系统后,因为 gnome 或其他库的原因容易出现,然后就是硬件驱动,但是硬件驱动一般是直接挂,切不了命令行。
    mmdsun
        16
    mmdsun  
       336 天前   ❤️ 1
    windows 和 linux 都有魔法键,当卡住的时候,键按下后可以让打印错误信息.

    linux 搜索:magical key
    windows 搜索:Forcing crash from keyboard

    配置下,卡住时候 按下看看
    ccxxjjjjjj
        17
    ccxxjjjjjj  
       336 天前
    可能是一个帮助不大的回复

    2 年前装机的时候遇到过类似的情况:没有执行任何“重”操作,莫名其妙就会卡住,有时候鼠标移动一下就卡在那里了,卡住后只能强制重启。

    当时候经销商给配的确实是国产内存条中性能较差的(已经忘记是哪家的国产内存条了),换了内存后,2 年内除了断电很少关机,到现在为止再也没有出现过卡住的情况。所以建议先换掉内存试试。
    ccxxjjjjjj
        18
    ccxxjjjjjj  
       336 天前
    说回来既然是采购的,完全可以走售后,而且你可以暗示是硬件问题。没必要折腾半天(我当初折腾了一周),后来粗暴的换了内存之后就解决了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2884 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 00:28 · PVG 08:28 · LAX 17:28 · JFK 20:28
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.