OP 目前在用 DELL R720XD 平台,H710p RAID 卡,插了 10 块盘,由于没有刷 IT 模式,好几块都是做的单盘 RAID0 ,ESXI 虚拟平台,其中安装了黑裙。
最近遇到过几次黑裙掉盘的情况,出问题的应该是其中一个单盘 RAID0 ,这个盘并没有直通给黑群晖,在黑群晖内核日志中看到的现象是其他所有的硬盘读写都报了 IO ERROR ,然后导致掉盘,存储池故障。移除这块“坏盘”后问题没有再出现。
有几个疑问:
把上面拆下的“坏盘”取下来用 DiskGenius 做了一次全盘扫描,并没有坏块,smart 信息没有发现异常,但在 ESXI 上读写这块盘的时候是有卡顿的情况,硬盘应该有点不正常,是 smart 信息不准确?
是否有可能是 RAID 卡故障,感觉不太可能,移除这块硬盘后就正常了,没有再出现掉盘的情况,感觉还是硬盘的问题。
RAID 卡上的多组虚拟硬盘之间会互相影响吗,其中一块硬盘故障会影响其他所有的 RAID 组硬盘?如何会互相影响,这样感觉还不如全部直通然后通过软件 RAID 可用性高?
1
ryd994 2023-05-27 00:56:16 +08:00 via Android 1
1. smart 只是统计数据。硬盘故障前并不一定有预兆
2. 不一定,如果是这个端口坏了呢? 3. 正常来讲不应该。有可能是非企业硬盘没有 tler 。遇到坏扇区就长时间重试。 本来就应该刷 IT 。硬 raid 基本上属于历史遗留技术。 |
2
YongXMan OP @ryd994 感谢回答。
1. 实际情况是发生过好几次故障导致其他盘读写异常,这些信息也应该被统计进去,事实上 smart 信息没有什么异常。扫描了 30 多小时没有发现坏块,是不是有可能是硬盘其他机械结构有问题? 2. 不是端口问题,更换过硬盘位,和盘位没关系。 3. 这块确实是家用普通 sata 盘,4T ,但是它影响到了其他的企业 sas 盘的读写了。 |
3
busier 2023-06-05 19:19:23 +08:00 via iPhone
考虑下 电源是不是用了多年 供电不行了
|