1000台規模のクラスタの障害復旧時間を10秒未満に、NECが新技術

NECは、1000台規模の大規模クラスタシステムでサーバの障害を高速に復元し、停止時間を大幅に短縮する「高速リカバリ技術」を開発した。

» 2005年11月18日 21時29分 公開
[ITmedia]

 NECは11月18日、1000台規模の大規模クラスタシステムにおいてサーバの障害を高速に復元し、停止時間を大幅に短縮する「高速リカバリ技術」を開発したことを発表した。

 この高速リカバリ技術は「プロセスリカバリ方式」と大規模システムに対応した「クラスタ監視方式」といった仕組みを通じて実現された。この技術を活用することにより、Linuxを搭載した1000台規模のクラスタシステムにおいて、サーバで発生した1回の障害当たりの停止時間を10秒未満にまで短縮できるという。

 これまでもクラスタシステムの挙動を監視し、短時間で復旧作業を行えるようにするモニタリングの仕組みは提供されてきたが、スケールアップが困難な点が課題となっていた。NECが開発したクラスタ監視方式では、通常稼動時と高負荷時とで監視サーバに送信するデータのサイズを変えることにより、監視用サーバの負荷を削減。1台の監視サーバで1000台規模のクラスタシステムを監視し、数秒以内に障害を発見できるようにした。

 また障害からの復旧においては、プロセスリプリケーションに改良を施したプロセスリカバリ方式を採用。メモリの使用量を3分の1から最小で10分の1にまで削減しながら、数秒程度で復旧を行えるようにした。この結果、複製データ保持のために必要なサーバの数も削減できる。

 NECは高速リカバリ技術を、電子政府やオンラインモールのように生活を支える大規模情報システムの信頼性を向上させるものと位置づけ、引き続き研究、開発を強化していくという。

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ