DELL PowerEdge T110 IIのトラブル対応を行いました。

Windows2008server搭載のPCサーバーですね。

トラブル症状は「日中は普通に使えるが、毎朝壁紙にマウスカーソルが表示されただけの状態でフリーズしている」です。

規則性があるようでしたのでソフトウェアトラブル?かと考えていたのですが、最終的な結論は別にありました。

原因はHDD(ハードディスク)の故障です。

今回の場合、Raid1でディスク2本構成だったのですが、Disk-0がRaidから外れてdegrade状態(論理障害)。なおかつDisk-1に少量の不良セクタが発生している状態(物理障害)でした。

簡単に説明しますとDisk-0はdegradeなので、Raid1としては動作をしていない状態で存在しないも同等。Disk-1だけが動作している状態です。

しかし、Disk-1には一部不良セクタが発生しています。不良セクタ発生領域にアクセスしなければ問題なく動作しますが、OSが不良セクタ発生領域にアクセスすると、データ読み込みができず完全に固まってしまう・・・というわけです。

原因がわかったので、あとは修理です。

ただし今回はメーカー保証期間につき、修理はメーカーです。私はお客様のご希望で、担当者代理として作業に立ち会わせて頂きました。

メーカーの修理プランは「Degrade状態のDisk-0を新品に交換して、Raid1をリビルドする」というものでした。しかし、Disk-1にも障害が発生しているので、これでは問題解決するとは思えません。リビルド中にOSがフリーズする可能性が非常に高いです。

メーカーに確認してみるとDisk-1の障害は確認していないとのこと・・・、サーバー上のログで診断した結果のみでの判断との事だったので、物理障害の診断ができるツールでDisk-1をチェックして頂き障害のあることを確認して頂きました。

その結果を受けDisk-0,Disk-1ともに交換して頂く事に。

問題はその順番です。Disk-0を先に交換するのは上記の通り問題ありです。その逆、Disk-1を先に交換したとしてもDisk-0がDegrade中なのでリビルドできません。Disk-0,Disk-1共に障害があるのですから当然ですね・・・。

この場合のセオリーはDisk-0,Disk-1を同時に交換して、新規にRaid1の再設定。中身が空っぽになっているのでバックアップイメージを書き戻して終了・・・でしょうか。(メーカーの提案もこれです)

ですが、今回はいろいろな事情(長いので省略)で別の方法をとりました。

最終的に行った修理プランは「問題の根本であるDisk-1の不良セクタを修復。その後Disk-0を新品交換リビルド。リビルド完了後、今度はDisk-1を新品交換リビルド」です。力技であり裏技でもある手段です。

因みに不良セクタの修復はメーカーにはやってもらえないので、こちらで行いました。

その結果、細心の注意を払った甲斐あり、目論見通りなんとか無事修理完了。完全復旧です。

めでたしめでたし。