高手支招:如何排除服務(wù)器RAID 5故障? |
發(fā)布時(shí)間: 2012/8/12 20:15:14 |
由于技術(shù)的不斷進(jìn)步,不同型號的服務(wù)器出現(xiàn)RAID 5故障后,處理方法也不同。 現(xiàn)在大型應(yīng)用程序的網(wǎng)絡(luò)拓樸結(jié)構(gòu),一般都采用C/S結(jié)構(gòu)或B/S結(jié)構(gòu),至少需要一臺裝有大型數(shù)據(jù)庫的服務(wù)器安放于中心機(jī)房;趯Ψ⻊(wù)器安全性與可靠性的考慮,通常會對服務(wù)器的磁盤采用磁盤陣列RAID(Redundant Array of Inexpensive Disk)進(jìn)行磁盤冗余備份。其中RAID 5陣列級別為無獨(dú)立校驗(yàn)磁盤的奇偶校驗(yàn)磁盤陣列,采用數(shù)據(jù)分塊和獨(dú)立存取技術(shù),能在同一磁盤上并行處理多個訪問請求,同時(shí)允許陣列中的任何一個硬盤出現(xiàn)故障。 實(shí)際應(yīng)用中,由于某些不可避免的客觀原因,可能會造成一些陣列故障。最常出現(xiàn)的狀況就是硬盤自行脫機(jī),聯(lián)機(jī)狀態(tài)顯示為DDD(Defunct Disk Drive,無效磁盤驅(qū)動器),硬盤出現(xiàn)物理故障或邏輯故障。如果是物理故障,只有進(jìn)行硬盤更換;如果是邏輯故障,可以通過有針對性的技術(shù)修復(fù),恢復(fù)硬盤的在線狀態(tài),繼續(xù)保持其原始陣列中的硬盤數(shù)據(jù)條帶化分布狀態(tài),延續(xù)數(shù)據(jù)存儲體系的一致性。 但是,對HP的一些老服務(wù)器(如HP LH6000)數(shù)據(jù)的恢復(fù)與新服務(wù)器(如HP ProLian系列服務(wù)器)的數(shù)據(jù)恢復(fù)是不同的。所以不同的服務(wù)器對RAID 5故障的處理也是不同的。筆者曾接觸過兩臺服務(wù)器因意外斷電而造成的RAID 5陣列卡數(shù)據(jù)故障,由于采用了不同的策略而解決了問題。 故障修復(fù) 一臺是在2000年購買的HP LH6000的服務(wù)器,4塊18GB的硬盤做成RAID 5磁盤陣列,其陣列卡是NetRaid;另一臺是2006年購買的HP ProLian ML370服務(wù)器,4塊146GB的硬盤做成RAID 5磁盤陣列,其陣列卡是Smart Array 642并帶有熱備份硬盤(Hot Spare)。兩者操作系統(tǒng)都為Window 2000,數(shù)據(jù)庫是Server 2000。 HP LH6000的故障如下: 一塊硬盤紅燈閃亮,機(jī)器還在正常運(yùn)行,但沒有多久,系統(tǒng)就不能正常運(yùn)行,這時(shí)才發(fā)現(xiàn)另一塊硬盤的紅燈也在閃亮。 解決辦法如下: 1.啟動服務(wù)器,自檢至陣列時(shí)按Ctrl+M進(jìn)入NetRaid管理程序。查看陣列信息,發(fā)現(xiàn)硬盤狀態(tài)為Failed,運(yùn)用修改配置將一硬盤強(qiáng)行設(shè)置成OnLine。重新啟動服務(wù)器,在進(jìn)入系統(tǒng)前的硬件自檢時(shí)無效,啟動失敗。 2.啟動服務(wù)器,自檢至陣列時(shí)按Ctrl+M進(jìn)入NetRaid管理程序。選擇磁盤陣列,將原來OnLine掛起來的硬盤手工Fail掉,然后再把另一塊Failed的硬盤手工設(shè)置成OnLine,重新啟動服務(wù)器就可以進(jìn)入系統(tǒng)了。 3.查看系統(tǒng)及數(shù)據(jù)庫都運(yùn)行正常后,再進(jìn)陣列配置工具把Failed的硬盤手工設(shè)置成Rebuild,100%完成重建后再重啟服務(wù)器,所有的陣列及系統(tǒng)都恢復(fù)原狀了。 由于技術(shù)的不斷進(jìn)步,不同型號的服務(wù)器出現(xiàn)RAID 5故障后,處理方法也不同。 現(xiàn)在大型應(yīng)用程序的網(wǎng)絡(luò)拓樸結(jié)構(gòu),一般都采用C/S結(jié)構(gòu)或B/S結(jié)構(gòu),至少需要一臺裝有大型數(shù)據(jù)庫的服務(wù)器安放于中心機(jī)房;趯Ψ⻊(wù)器安全性與可靠性的考慮,通常會對服務(wù)器的磁盤采用磁盤陣列RAID(Redundant Array of Inexpensive Disk)進(jìn)行磁盤冗余備份。其中RAID 5陣列級別為無獨(dú)立校驗(yàn)磁盤的奇偶校驗(yàn)磁盤陣列,采用數(shù)據(jù)分塊和獨(dú)立存取技術(shù),能在同一磁盤上并行處理多個訪問請求,同時(shí)允許陣列中的任何一個硬盤出現(xiàn)故障。 實(shí)際應(yīng)用中,由于某些不可避免的客觀原因,可能會造成一些陣列故障。最常出現(xiàn)的狀況就是硬盤自行脫機(jī),聯(lián)機(jī)狀態(tài)顯示為DDD(Defunct Disk Drive,無效磁盤驅(qū)動器),硬盤出現(xiàn)物理故障或邏輯故障。如果是物理故障,只有進(jìn)行硬盤更換;如果是邏輯故障,可以通過有針對性的技術(shù)修復(fù),恢復(fù)硬盤的在線狀態(tài),繼續(xù)保持其原始陣列中的硬盤數(shù)據(jù)條帶化分布狀態(tài),延續(xù)數(shù)據(jù)存儲體系的一致性。 但是,對HP的一些老服務(wù)器(如HP LH6000)數(shù)據(jù)的恢復(fù)與新服務(wù)器(如HP ProLian系列服務(wù)器)的數(shù)據(jù)恢復(fù)是不同的。所以不同的服務(wù)器對RAID 5故障的處理也是不同的。筆者曾接觸過兩臺服務(wù)器因意外斷電而造成的RAID 5陣列卡數(shù)據(jù)故障,由于采用了不同的策略而解決了問題。 故障修復(fù) 一臺是在2000年購買的HP LH6000的服務(wù)器,4塊18GB的硬盤做成RAID 5磁盤陣列,其陣列卡是NetRaid;另一臺是2006年購買的HP ProLian ML370服務(wù)器,4塊146GB的硬盤做成RAID 5磁盤陣列,其陣列卡是Smart Array 642并帶有熱備份硬盤(Hot Spare)。兩者操作系統(tǒng)都為Window 2000,數(shù)據(jù)庫是Server 2000。 HP LH6000的故障如下: 一塊硬盤紅燈閃亮,機(jī)器還在正常運(yùn)行,但沒有多久,系統(tǒng)就不能正常運(yùn)行,這時(shí)才發(fā)現(xiàn)另一塊硬盤的紅燈也在閃亮。 解決辦法如下: 1.啟動服務(wù)器,自檢至陣列時(shí)按Ctrl+M進(jìn)入NetRaid管理程序。查看陣列信息,發(fā)現(xiàn)硬盤狀態(tài)為Failed,運(yùn)用修改配置將一硬盤強(qiáng)行設(shè)置成OnLine。重新啟動服務(wù)器,在進(jìn)入系統(tǒng)前的硬件自檢時(shí)無效,啟動失敗。 2.啟動服務(wù)器,自檢至陣列時(shí)按Ctrl+M進(jìn)入NetRaid管理程序。選擇磁盤陣列,將原來OnLine掛起來的硬盤手工Fail掉,然后再把另一塊Failed的硬盤手工設(shè)置成OnLine,重新啟動服務(wù)器就可以進(jìn)入系統(tǒng)了。 3.查看系統(tǒng)及數(shù)據(jù)庫都運(yùn)行正常后,再進(jìn)陣列配置工具把Failed的硬盤手工設(shè)置成Rebuild,100%完成重建后再重啟服務(wù)器,所有的陣列及系統(tǒng)都恢復(fù)原狀了。 本文出自:億恩科技【prubsntakaful.com】 服務(wù)器租用/服務(wù)器托管中國五強(qiáng)!虛擬主機(jī)域名注冊頂級提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |