V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
sty
V2EX  ›  程序员

我这显卡是不是坏了

  •  
  •   sty · 131 天前 · 2212 次点击
    这是一个创建于 131 天前的主题,其中的信息可能已经有所发展或是发生改变。
    $ nvidia-smi
    Unable to determine the device handle for GPU0000:01:00.0: Unknown Error
    

    之前用一个 7b 的模型做推理,连续用了 20 多个小时。后面就不间断出现这个错误了,但是一重启就好了,是不是显卡硬件坏了?

    17 条回复    2024-08-12 19:42:15 +08:00
    GoRoad
        1
    GoRoad  
       131 天前   ❤️ 1
    不是工业级的显卡,长时间用可能会出现各种问题,要是重启后能正常,那大概率还没坏 可能是过热之类了
    sty
        2
    sty  
    OP
       131 天前
    @GoRoad 一周多了,每天都得重启,更新了一下驱动也没用。有没有可能是某些区块坏了,要跑一段时间才能碰到坏的区块
    DigitalG
        3
    DigitalG  
       131 天前   ❤️ 1
    “不间断”,是间隔多久?重启就好的话,我遇到过,有可能是 nvidia driver 自动更新导致的。可以看看 driver 版本是不是比那了,或者去系统日志里看看。再配置关闭自动更新。
    HojiOShi
        4
    HojiOShi  
       131 天前   ❤️ 1
    用的啥显卡,是不是矿卡啊。
    sty
        5
    sty  
    OP
       131 天前
    @DigitalG 坏了之后,driver 我自己更新过了。在使用的时候没报错,比如我跑 3 个小时的训练,能跑完。反而是空闲的时候就报上面这个错。一天 1 到 2 次吧,每天都有
    sty
        6
    sty  
    OP
       131 天前
    @HojiOShi 3090ti ,买了三年多了不咋用,最近 3 个月开始用的
    cinlen
        7
    cinlen  
       131 天前   ❤️ 1
    dmesg 看看内核日志有无异常
    rickiey
        8
    rickiey  
       131 天前   ❤️ 1
    监控下温度,频率,显存这些数据,还有功率
    sty
        9
    sty  
    OP
       131 天前
    @cinlen [ 2.018550] [drm] [nvidia-drm] [GPU ID 0x00000100] Loading driver
    [ 369.857712] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts.
    [ 493.216012] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts.
    [ 1537.808965] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts.
    [ 1764.689999] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts.
    [ 1766.588211] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts.
    [ 1775.551022] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts.
    老哥帮忙看下
    sty
        10
    sty  
    OP
       131 天前
    @rickiey nvidia-smi
    ```
    Mon Aug 12 15:30:33 2024
    +-----------------------------------------------------------------------------------------+
    | NVIDIA-SMI 550.107.02 Driver Version: 550.107.02 CUDA Version: 12.4 |
    |-----------------------------------------+------------------------+----------------------+
    | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
    | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
    | | | MIG M. |
    |=========================================+========================+======================|
    | 0 NVIDIA GeForce RTX 3090 Ti Off | 00000000:01:00.0 Off | Off |
    | 30% 41C P0 N/A / 450W | 1MiB / 24564MiB | 0% Default |
    | | | N/A |
    +-----------------------------------------+------------------------+----------------------+

    +-----------------------------------------------------------------------------------------+
    | Processes: |
    | GPU GI CI PID Type Process name GPU Memory |
    | ID ID Usage |
    |=========================================================================================|
    | No running processes found |
    +-----------------------------------------------------------------------------------------+
    ```
    cinlen
        11
    cinlen  
       131 天前
    在正常和异常时分别执行一下 lspci -s 01:00.0 -nnDk 命令看看这张显卡的驱动名是什么。 我有一张 nvidia telsa 温度飙到 90 摄氏度都没出现过你这个问题。
    sty
        12
    sty  
    OP
       131 天前
    @cinlen 正常情况下 lspci -s 01:00.0 -nnDk
    0000:01:00.0 VGA compatible controller [0300]: NVIDIA Corporation Device [10de:2203] (rev a1)
    Subsystem: Device [7377:2000]
    Kernel driver in use: nvidia
    libkmod: kmod_config_parse: /etc/modprobe.d/blacklist-nouveau.conf line 1: ignoring bad line starting with 'cklist'
    Kernel modules: nouveau, nvidia_drm, nvidia
    daishuge
        13
    daishuge  
       131 天前 via Android
    圈外人,想问一下这种能不能走保修,如果是正规平台买的话,谢谢
    lsp7572
        14
    lsp7572  
       131 天前
    搜了下网上有人碰到,比如电源问题啥的,这个你自己搜索过,或者尝试过没,从问题没看出来试过
    sty
        15
    sty  
    OP
       131 天前
    @lsp7572 我能搜到的软件解决办法都试过。这台机器在机房,走流程挺麻烦,如果软件层面解决不了,那就报硬件流程去了
    huaijin
        16
    huaijin  
       131 天前
    设备管理器,看看显卡驱动是不是损坏了
    sweelia
        17
    sweelia  
       131 天前   ❤️ 1
    2080ti 改 22g ,遇到训练几天就中断,提示通讯/io 相关的异常,内核驱动进入了异常状态,只能重启恢复。
    大聪明的我以为是驱动兼容性问题,写了个脚本自动重启,自动恢复训练。
    然后过了 2 个多星期驱动彻底不认卡了。仔细检查是显存虚了,拆下重焊恢复正常,然后限制最高功率,加散热,目前几个月没再遇到需要重启的情况
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1293 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 17:37 · PVG 01:37 · LAX 09:37 · JFK 12:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.