有没有 PVE 装黑裙的大佬，我的黑裙最近时间总是不定期掉线，头疼

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

请不要把任何和邀请码有关的内容发到 NAS 节点。

邀请码相关的内容请使用 /go/in 节点。

如果没有发送到 /go/in，那么会被移动到 /go/pointless 同时账号会被降权。如果持续触发这样的移动，会导致账号被禁用。

这是一个创建于 387 天前的主题，其中的信息可能已经有所发展或是发生改变。

表现： 可能几天就一次，必须要重启，重启后查看日志，里面有 link down 的记录

1 、目前机器仍然在掉线状态，由于 pve 中其他虚拟机，除了 windows 外，都依赖于群晖的 smb ，所以群晖掉线后，其他服务基本都不可用了

2 、发现群晖掉线后，访问 pve 后台是正常的，但是过了几个小时，pve 后台也访问不了了，暂时没有头绪。pve 本身不依赖群晖。ssh 可以访问，管理端访问不了了。

3 、目前 windows 还是正常的状态，由于这次掉线刚好群晖在扩容，所以还没敢重启，黑盒等待中（无法得知扩容状态，但是掉线之前看到预计 1 天多一点，所以昨天中午掉线后，就没重启，准备今天晚上重启下。）

猜测： 是网络掉线了，原因未知。

之前也有好几次掉线，所以应该不是因为扩容导致的问题。
pve 中的其他虚拟机（ windows+ubuntu+ct 容器*2 ）都是正常的，没有掉线问题，排除硬件网口的问题

应该是 pve 主机和群晖的某些配置兼容性，或者是群晖本身的问题。
目前是 44t+14t 组的群晖的 shr1 ，容量=44t ，剩余空间是 700G ，前段时间出现问题的时候，怀疑是容量过低导致的，所以清理出来了一些空间，目前是 700G 。应该可以排除容量问题。
网卡选的是 E1000 ，应该不是兼容性问题？这个不确定。

第 1 条附言 · 2024-08-30 11:57:26 +08:00

更新：
今天又掉线了，不过查看群晖的日志发现在掉线之前，pve 大量访问群晖的共享盘，有个共享盘我挂到 pve 当备份存储了，之前系统盘容量不够用，不过目前扩容了，我摘掉再观测下看看。

第 2 条附言 · 2024-08-31 09:42:30 +08:00

今天早上发现，群晖又掉线了，同时pve的管理端和ssh都连不上了，直接重启。重启后查看系统日志，发现昨天晚上8点开始报错连不上群晖的smb了(2.11是群晖的地址)

https://imgse.com/i/pAEt2E4

然后查了下发现，直接从管理页面删除挂载的smb盘不会直接取消挂载，要命令摘掉，然后执行了umount。

不过从日志看，源头并不是PVE导致的，反而可能是群晖掉线引起的pve访问smb超时，导致了pve的崩溃，下面是pve的后续日志，好像是0点开始自动备份dpkg-db-backup.service，然后就开始出问题了

https://imgse.com/i/pAEt2E4

然后日志就停了，直到我重启，好像是日志服务崩溃了。什么原因没看懂。群晖为什么掉线也不清楚。。。，不过大概知道，群晖是先出的问题，而且掉线后pve过段时间也会掉线，到底是因果关系，还是一个问题先后导致的两个系统出的问题，不清楚。目前怀疑的点有三个： 1、pve之前从7.x更新到了8.1.3，可能是系统升级导致的 2、有个老哥提示说可能是sata扩展卡过热导致的问题，感觉也有可能，我的nas没有在主板仓装风扇，里面只有一个cpu的风扇。而且硬盘一直在高负载读写（pt刷流） 3、网卡的配置问题。看到有人遇到pve虚拟机频繁掉线，不过我是不定期解决方案： ethtool -K <接口> tx off rx off 目前还是重点怀疑2。不过根据操作难度我决定以3->2->1 的顺序排查。

第 3 条附言 · 2024-09-09 08:42:19 +08:00

在tg群友的帮助下破案了（万分感激）： 是nfs读写性能问题，qb查看统计信息，看到io队列拍了500+。 背景： pve宿主机： 1、黑群晖：只提供存储服务，对外提供smb和nfs服务。 2、docker(lxc容器):部署docker，然后用nfs挂载群晖的共享盘到lxc容器，然后映射给qb 3、windows虚拟机...

所以问题就出现在qb下载的时候，nfs性能不够，导致io拥挤，然后可能进一步导致了群晖掉线了。更深一步的原因，或者说nfs负载如何导致群晖掉线的因果关系暂时没有探索（个人linux小白，简单查了下没找到原因）。

解决：

把qb挪到群晖中的docker里面，避免通过nfs进行下载和上传。emby等服务仍然留在lxc中。

PS：为什么用nfs而不是smb？最开始用的是smb，但是docker中的emby和jellyfin会无法播放刚入库的资源，过段时间才可以访问，开始怀疑是不是缓存之类的配置项导致的，然后尝试修改了一些参数，也没有解决，就换成nfs了，确实解决了这个问题。没想到后续出现了新的问题。

黑裙

掉线

重启

21 条回复 • 2024-08-31 10:00:33 +08:00

cookLv

2024-08-28 17:21:26 +08:00

好像不能编辑了，上面的星号被转义了，容量是 4*4T+14T

zhouhuade

2024-08-28 17:26:34 +08:00

看下 pve 的日志呀，
感觉你应该有用 sata 扩展卡，看看扩展卡是不是有问题

cookLv

2024-08-28 17:30:26 +08:00

@zhouhuade 是的大佬，确实用了 sata 扩展卡，主板只有 6 个 sata 口，所以买了一个 4 口的扩展，怎么知道是不是扩展卡的问题呢？日志我等下回家找找怎么看。

cookLv

2024-08-28 17:33:16 +08:00

这是我用的扩展卡，主板是华硕的 tuf b360m -plus gaming

cookLv

2024-08-28 17:36:11 +08:00

补充信息：pve 主机 ssh 也无法登录了，但是还可以 ping 通，windows 虚拟机暂时没问题

ps：为什么帖子不能追加内容了呢，也不能修改。

JensenQian

2024-08-28 17:41:38 +08:00

我之前也是 pve 装的黑裙，也是经常掉线
我后面直接物理机装了 unraid ，现在一年多了都没怎么掉过线

bytesfold

2024-08-28 17:45:29 +08:00 via iPhone

PVE 主机网卡的问题好像，需要关闭网卡的硬件加速啥的，改成 cpu 解码；
不对在改回来

phenixc

2024-08-28 17:45:35 +08:00

pve 的直通设备出现问题就会有这现象，没有找到好的解决办法

laminux29

2024-08-28 17:53:46 +08:00

经常掉线要注意一下温度与电源。

1.大家应该都知道水冷，可是几乎没人告诉你：主板、存储介质、网卡、光模块这类都需要控温的。
曾经有一块主板不定期蓝屏，搞了个 12cm 风扇对着主板吹，就好了。而且主板温度很难监控到。

2.换个电源试试。以前我在京东自营，买了某品牌电源，买了几个，都没撑过 2 年。京东给我换，我不要。直接去拼多多买了爆火的尘雨电源。

3.内存条跑个 Memtest86+，至少 1 个 pass

4.重装 + 双烤 30 分钟试试。

cookLv

2024-08-28 18:05:45 +08:00

@JensenQian 哎，搭建了好多服务，不到最后一步不想重新折腾了

@bytesfold 谢谢回复，这个之前好像看到过文章，改动过后面还没观测，物理网口掉线了，排查过程中改回去了，我今天重启恢复了再试试看。

@phenixc 难受了

@laminux29 感谢回复，不过由于其他的虚拟机都没什么问题，暂时不往硬件排查，而且温度其实挺正常的，我有经常看

X2031

2024-08-29 11:52:43 +08:00

PVE 黑裙稳定运行 300 多天了啥问题没有

shouh

2024-08-29 12:13:17 +08:00

我这边 PVE 虚拟机上面的群晖老是不定时重启,一直找不到原因,请大佬指导下
系统
System booted up from an improper shutdown

System started to boot up.

cookLv

2024-08-29 13:24:33 +08:00

@shouh 异常关机，找找 pve 的日志看看有没有记录，我没遇到过重启，我的都是掉线
@X2031 羡慕

yanlaury

2024-08-29 16:06:23 +08:00

https://kiritow.com/proxmox-eth-fix/
试试这个吧，我之前 pve 失联用这个解决的

YASUAKI

2024-08-29 16:30:32 +08:00

@shouh 尝试更换 pve 内核，我之前更新了内核之后就大概每隔 15min 黑裙就自动重启，也提示这个日志，换回原来的内核就好了

qpwo005451mark2

2024-08-29 17:02:33 +08:00

t/944268
我之前遇到这个表现和你这个有点像，当时我是把 PVE 宿主系统做了 ZFS raid 1 ，推测是硬件与 ZFS 兼容性问题，文件系统使用 EXT4 之后就没有这个问题了，有键鼠显示器的话接上 PVE 主机，终端里看下有没有什么异常，我当时就是 load 上百，卡 IO waiting ，PVE 的 pveproxy 遇到这种情况是第一个崩的，sshd 也时间久了也会崩

OliviaV

2024-08-29 17:43:51 +08:00

我这也几百天在线了用的是 virtio 版本是 7.4-17

zhouhuade

2024-08-29 20:05:37 +08:00

我之前用了 sata 扩展卡，过热到一定程度就会导致失联
我建议优化散热，给扩展卡加散热片
我当时查到是扩展卡的问题是在 pve 的日志里看到很多 sata 扩展卡的 pci 设备报错

cookLv

2024-08-30 11:56:57 +08:00

shouh

2024-08-31 00:06:55 +08:00

@YASUAKI 好的，谢谢，再测试看看

cookLv

2024-08-31 10:00:33 +08:00

@zhouhuade #18 大佬，散热片怎么加的呀，绑上去还是粘上去呢，有没有散热片推荐呢