Life君的数码生活馆 篇二十:紧急演练:群晖NAS用Hot Spare硬盘自动修复RAID1阵列
今日设想
上次的测试项目主要围绕DS620slim的外部/内部传输速度和性能来展开。
由于近期的各种测试项目大多利用存储空间管理员来进行,大家对其界面已经非常熟悉。此处的Hot Spare引起了我们的好奇心。
点击一下,想进入查看,提示是系统中无备援配置。根据前期RAID0、RAID1测试项目经验的启发,从字面意义上推断:这个热备(Hot Spare)功能,应该是在阵列降级时,能自动进行修复,当然是需要有多余的硬盘来帮忙。
既然之前演练的是手动修复降级的RAID1阵列,那今天的测试对象就是它----测试当RAID1阵列降级时,DSM系统能否利用Hot Spare硬盘,来自动修复阵列了。
测试背景
本文属于作者Lifeisgood《从零开始装群晖》系列原创。我们将以群晖科技最新发布的DS620slim作为测试平台,把张大妈家NAS爱好者和群晖粉丝提出的各种问题,用各种测试方案进行验证和试验。
在上文中,我们先用1块酷狼NAS专用SSD作为主硬盘,目的是安装和运行DSM系统,这样就为DS620slim搭建了一个最简系统,作为后续测试的基本平台。这个硬盘位我们用钥匙锁定,不再随意插拔。
由于DS620slim还有5个硬盘位,升级扩展的余地很大。所以我们仍然可以利用不同的硬盘组合,来设计非常多的测试方案。在此也向各位亲们征集各种新奇的创意和大胆的想法。
测试环境
回顾一下当前环境:
硬盘1:酷狼SSD,这个作为系统盘,存储和运行DSM系统。该盘建立了存储池1、存储空间1。
硬盘3:酷狼SSD。
硬盘4:酷狼SSD。
硬盘3、4已经创建了全固态的RAID1阵列。该阵列建立了存储池2、存储空间2。
硬盘5、6:已经创建了机械硬盘的RAID0阵列。该阵列建立了存储池3、存储空间3。详见《篇二百一十一:无照贴地飞行 矿车司机必备:创建年轻人的第一个RAID0阵列》。
注:本文中的硬盘1或者硬盘N,主要指群晖NAS中从左到右编号的盘位,也指该盘位中的硬盘,在不引起混淆的前提下,文字叙述上不做严格区分。
准备工作
前述的推测是:Hot Spare应该是在群晖NAS中安装好的空闲硬盘,上面没有任何数据,当阵列出问题时,会自动用该硬盘替补修复。我们还是先做功课,了解一下Hot Spare的官方说法。
Hot Spare 硬盘是备用硬盘,可通过自动更换发生故障的硬盘来修复处于降级状态的存储池。在存储池符合以下条件的前提下,可在全局指定将 Hot Spare 硬盘用于保护 Synology NAS 中的任何存储池:
存储池的 RAID 类型必须具有数据保护功能(即 RAID 1、RAID 5、RAID 6、RAID 10、RAID F1)。
Hot Spare 硬盘容量必须等于或大于存储池中最小硬盘的容量。
看来我们的推测是正确的,下面自作主张,先约定术语吧:Hot Spare可翻译为热备援硬盘,Hot代表通电工作,说明不中断业务即可修复阵列的技术优势。以下为打字方便和阅读通顺,简称为备援硬盘,不做严格区分。
备援硬盘从哪里来呢?别忘了硬盘5、6共同组成了实验性的RAID0,我们现在删除存储空间3,释放这两块硬盘。
进入存储空间管理员,将要删除存储空间3。它是建立在存储池3上,后者由两块机械硬盘组成RAID0阵列。
删除后,目前系统中剩余存储空间1、2。
存储空间3删除后,我们才能继续删除其创建的基础:存储池3。依然是在存储空间管理员中,进入存储池页面,进行删除操作。
存储池3删除后,当前系统中仍存在存储池1、2等两个存储池。
切换到HDD/SDD页面,可以看到系统中硬盘总数不变,依然是5块。只是硬盘5、6变为已初始化,表示物理上安装在DS620slim中,但尚未加入逻辑存储系统。通俗地讲:这两块硬盘当前处于通电、未分配(空闲)状态。
创建Hot Spare备援硬盘
先来检视一下当前的存储环境与资源配置。
存储池2:由两块SSD构成,这是本次备援硬盘实验的保护对象。
未用硬盘:绿色,2块,即前述的硬盘5、6,本次用来保护存储池2。
两块绿色方块:代表硬盘5、6。
一个空闲的硬盘位,留待以后设计更多的测试方案。
依然是在存储空间管理员中,进入Hot Spare页面。点击管理,弹出Hot Spare管理向导:
这里给出了符合条件,能够使用Hot Spare自动修复的存储池2。
这里给出了能够作为Hot Spare的两块硬盘,我们可以选择1到2块硬盘来加入备援硬盘。最少用一块就可以了。
勾选右侧的两块空闲硬盘,点击应用按钮。
弹出警告窗口,新添加硬盘上的所有数据将被擦除,是否确定要继续?我们点击是。
依然是在Hot Spare的页面,这次点击上方右边的配置按钮。来设置哪一个存储池,能够被备援硬盘保护。
检视Hot Spare备援硬盘
以上设置步骤点击确定完成之后,在存储空间管理员的Hot Spare页面中,我们就能看到新增了两块硬盘,分别是硬盘5、6,它们的状态都是绿色的Hot Spare,显示备援硬盘已经加入存储系统。
切换到HDD/SDD页面看一下,硬盘5、6的状态均变成了绿色的正常。别忘了设置备援硬盘之前,状态是绿色的已初始化。
让我们来到存储空间管理员的总览页面,看一下整个存储系统的概貌:
Hot Spare硬盘:2,这里表明当前有两块备援硬盘。回想一下,设置Hot Spare之前,这里是两块绿色的空闲硬盘。
颜色上与前者呼应,这里有两块浅蓝色的硬盘5、6,表明均为备援硬盘。
所以群晖DSM的用户界面真的是太友好了,就算你不买群晖,也得安装黑群晖系统。
紧急演练:用Hot Spare自动修复受损的RAID1阵列
万事俱备,下面我们将要尝试年轻人的第一次Hot Spare自动修复。
为了模拟阵列受损的故障,我们拔出硬盘4,这是RAID1阵列的第二块固态盘:
立刻,DS620slim响起了滴滴的蜂鸣声,状态指示灯也变成了橙色慢闪。
在存储空间管理员的总览页面,我们也看到了红色的警示。
切换到存储空间页面,在存储空间2的详情中,我们看到了红色的警示:
存储空间2的状态变成了红色的堪用,表示目前数据暂无大碍。
关联的存储池已降级,由于存储空间2是创建于存储池2上,后者的RAID1阵列被我们拔出了一块硬盘,来模拟一块硬盘失效的故障,系统提示自然是降级了。
等了一会,怎么没看到Hot Spare自动修复的提示或者进度呢?
显然,自动修复并没有执行,让我们来到存储池页面一探究竟。注意看页面下方,在可用Hot Spare硬盘一栏,提示的竟然是无可用备用硬盘(即备援硬盘)。
继续切换到Hot Spare页面,这次才算真正看懂这个报告状态,左侧存储池2的表格里面,Hot Spare是0,表示该存储池被0个备援硬盘保护。实际上,前面在创建备援硬盘时,我们看到的也是相同的状态,因为是新手,并没有注意到这个0的含义。
不管怎样,群晖NAS继续在滴滴响着警告音,我们还是继续尝试吧。先点击上方工具栏的动作菜单,下拉的修复是灰色的,表示不可用。根据右侧红色的排障提示,只能用状态良好的硬盘来替换故障硬盘。
重新插入固态盘到硬盘4,来模拟用新硬盘替换故障硬盘。在动作菜单中,选择修复。此处被修复的对象是存储池2。
RAID1在修复中。
那这样的话,其实就等于在手动修复阵列了。详细的步骤本文不再叙述,上面卡片有详细的RAID1修复教程。
等待一段时间后,存储池2修复成功,蜂鸣声停止了,橙色慢闪的状态灯重新变成绿色。看一下各方的信息:
目前存储空间2变为绿色的正常状态。
50分钟前,拔出一块硬盘时,系统警告存储池2已降级。
9分钟前,存储池2的一致性检查已结束,这是修复中。
系统成功以硬盘4修复存储池2。
找到原因
在这次备援硬盘自动修复阵列演练中,我们采用了容量上满足要求的硬盘,也进行了正确的设置,但自动修复并没有发生,不得不手动修复阵列。那么原因在哪里呢?趁着阵列在修复,抓紧时间在网上找资料。
在网上找到这样一段话:安装有HDD的RAID不可通过SSD Hot Spare硬盘自动修复,反之亦然。我们当前使用的RAID1阵列用的是SSD(固态盘),而备援硬盘用的是HDD(机械硬盘),看来这就是无法自动修复的真正原因了。虽然自动修复暂时没有实现,但整个步骤是正确的,另外作为新手会遇到的状况,我觉得还是应该完整记录下来,方便各位读者少走弯路。我准备再找一块SSD,重新做一次备援硬盘实验,到时候再分享。
需要了解群晖全方位教程的,欢迎点击《群晖NAS非官方入门手册》。
若觉得本文对您有参考价值,请以点赞、收藏、打赏、评论来支持作者,谢谢!
龙龙七
校验提示文案
幕后工作者
校验提示文案
作死的鲨鱼
校验提示文案
liuzhe1847
校验提示文案
孤远居士
校验提示文案
Lifeisgood
校验提示文案
Lifeisgood
校验提示文案
Lifeisgood
校验提示文案
值友6898361643
校验提示文案
值友6898361643
校验提示文案
Lifeisgood
校验提示文案
Lifeisgood
校验提示文案
孤远居士
校验提示文案
liuzhe1847
校验提示文案
作死的鲨鱼
校验提示文案
幕后工作者
校验提示文案
龙龙七
校验提示文案
Lifeisgood
校验提示文案