博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
DELL PowerEdge 2950 RAID5数据恢复手记
阅读量:7187 次
发布时间:2019-06-29

本文共 1127 字,大约阅读时间需要 3 分钟。

[摘要]
    北京科技大学,DELL PowerEdge 2950,RAID5,由300gb SAS 硬盘*6组成。未知原因,服务器无法正常工作,进入RAID控制界面查询,发现1号盘与6号盘损坏,经DELL工程师指点后,强制上线6号盘,结果盘阵无法启动(操作系统也安装于此RAID),客户意识到操作的危险性,于是停止所有操作,此间RAID工作约20分钟。
    系统为REDHAT 文件系统为EXT3,存储着北京科技大学某研究室整整运算1年多的结果,数据至关重要。
[难点]
    1、SAS的连接问题,SAS是新的服务器硬盘接口,绕过RAID,以单盘连接SAS的方式相对来困难一些。不过,这是过去,这个问题早已解决。
    2、容量大,为1.8TB,如果需要重组及导出,会花大量时间及磁盘空间。
    3、LINUX EXT3文件系统,处理起来不像WINDOWS平台文件系统那样直接。
    4、分区方式采用LVM方式。
[分析]
    根据客户描述及表现,此例中RAID极有可能早先已有一块盘OFFLINE,突然性的另一块盘离线导致RAID整个盘阵崩溃,按描述,应该1号盘为后离线的,6号盘早已离线。
    如果上面分析属实,则1号盘必须为可读取的方可恢复全部数据。但强制上线6号盘,也许会导致文件系统出现不一致,导致其他盘内的数据发生变更。
[解决方案]
    应大致检测所有硬盘状态,分析RAID信息,剔掉可能的陈旧数据盘。
    重组RAID,读取数据。或直接以EXT3的模式恢复数据。
[解决过程]
    1、出于对用户数据负责,先用6块320GB移动硬盘对原盘进行一对一的镜像,此过程使用不含RAID功能的SAS适配器作为物理连接。
    2、连接6块镜像盘,对其结构进行分析,得到原RAID的结构参数。
    3、检测RAID校验一致辞性,发现极多不匹配。
    4、从6块盘中剔掉陈旧盘。但此时发现,前部分区结构的内容错误,应该为后强制上线所致(害人的DELL工程师)
    5、修正硬盘结构,直接将LVM改为普通分区指引。
    6、通过自主开发软件直接解释EXT3,读取数据,以SAMBA方式导出至LINUX EXT3目标分区(因自主软件为WINDOWS平台)。
    数据恢复成功!
[给用户的建议]
    1、DELL的服务器事实上可以查询到RAID的日志,在两块以上盘离线的情况下,应该通过查询日志等方式确定离线的过程,即使强制上线,也需要风险最小(数据重要,尽量少做这类操作)
    2、可以通过增加DRAC或hotspare等方式减少此类事故的发生率。
    3、如果数据重要,可先行咨询数据恢复公司
本文转自 张宇 51CTO博客,原文链接:http://blog.51cto.com/zhangyu/33739,如需转载请自行联系原作者
你可能感兴趣的文章
LeetCode-Palindrome Linked List
查看>>
mysqlAB复制(自动同步)
查看>>
函数$f(x+1)$和$f(x)$的奇偶性
查看>>
html
查看>>
Python:一个简单的完整程序
查看>>
P3207 [HNOI2010]物品调度
查看>>
uoj#213. 【UNR #1】争夺圣杯(单调栈)
查看>>
Unity4.5版本DLL库名字问题
查看>>
打造一个集Java,C/C++,Python开发与一体的eclipse neon.3-32bit
查看>>
C#进阶之路(六):表达式进行类的赋值
查看>>
SQL夯实基础(八):联接运算符算法归类
查看>>
如何使用JMeter来实现更大批量的并发的解决方案(即如何设置controller和Agent)
查看>>
第七天
查看>>
poj2823
查看>>
Linux 必会
查看>>
HTML骨架结构
查看>>
【哈希表】CodeVs1230元素查找
查看>>
自定义上传图片样式并实现上传立即展示该图片
查看>>
通达OA 自定义菜单
查看>>
Excutors 线程池
查看>>