DELL PowerEdge 2950 RAID5数据恢复手记-白红宇

[摘要]

北京科技大学，DELL PowerEdge 2950，RAID5，由300gb SAS 硬盘*6组成。未知原因，服务器无法正常工作，进入RAID控制界面查询，发现1号盘与6号盘损坏，经DELL工程师指点后，强制上线6号盘，结果盘阵无法启动（操作系统也安装于此RAID），客户意识到操作的危险性，于是停止所有操作，此间RAID工作约20分钟。

系统为REDHAT 文件系统为EXT3，存储着北京科技大学某研究室整整运算1年多的结果，数据至关重要。

[难点]

1、SAS的连接问题，SAS是新的服务器硬盘接口，绕过RAID，以单盘连接SAS的方式相对来困难一些。不过，这是过去，这个问题早已解决。

2、容量大，为1.8TB，如果需要重组及导出，会花大量时间及磁盘空间。

3、LINUX EXT3文件系统，处理起来不像WINDOWS平台文件系统那样直接。

4、分区方式采用LVM方式。

[分析]

根据客户描述及表现，此例中RAID极有可能早先已有一块盘OFFLINE，突然性的另一块盘离线导致RAID整个盘阵崩溃，按描述，应该1号盘为后离线的，6号盘早已离线。

如果上面分析属实，则1号盘必须为可读取的方可恢复全部数据。但强制上线6号盘，也许会导致文件系统出现不一致，导致其他盘内的数据发生变更。

[解决方案]

应大致检测所有硬盘状态，分析RAID信息，剔掉可能的陈旧数据盘。

重组RAID，读取数据。或直接以EXT3的模式恢复数据。

[解决过程]

1、出于对用户数据负责，先用6块320GB移动硬盘对原盘进行一对一的镜像，此过程使用不含RAID功能的SAS适配器作为物理连接。

2、连接6块镜像盘，对其结构进行分析，得到原RAID的结构参数。

3、检测RAID校验一致辞性，发现极多不匹配。

4、从6块盘中剔掉陈旧盘。但此时发现，前部分区结构的内容错误，应该为后强制上线所致（害人的DELL工程师）

5、修正硬盘结构，直接将LVM改为普通分区指引。

6、通过自主开发软件直接解释EXT3，读取数据，以SAMBA方式导出至LINUX EXT3目标分区（因自主软件为WINDOWS平台）。

数据恢复成功！

[给用户的建议]

1、DELL的服务器事实上可以查询到RAID的日志，在两块以上盘离线的情况下，应该通过查询日志等方式确定离线的过程，即使强制上线，也需要风险最小（数据重要，尽量少做这类操作）

2、可以通过增加DRAC或hotspare等方式减少此类事故的发生率。

3、如果数据重要，可先行咨询数据恢复公司

本文转自张宇 51CTO博客，原文链接：http://blog.51cto.com/zhangyu/33739，如需转载请自行联系原作者