ニュース
2004/02/26 07:41:00 更新


「災害・障害対策は企業の存続を左右する」IBMが提案する災害対策ソリューション

被災した企業のうち、43%は業務再開するまでに至らず、51%は2年以内に倒産、というデータは、災害対策の必要性を如実に物語る。IBMが展開している災害対策ソリューションにはどのようなものがあるか見てみよう。

 日本IBMが「オンデマンド時代のビジネス変革」をテーマに開催中の「IBM FORUM 2004」。その中で、「止まらないビジネスのための災害・障害対策(インフラ編)」と題したセッションが行われた。壇上に立ったのは、日本アイ・ビー・エム アドバンスド・テクニカル・サポートICP-コンサルティング ITスペシャリストの川口 一政氏。

川口氏

「災害・障害対策は企業の存続を左右する」と話す川口氏

 ここで、災害・障害対策を定義するなら、リスクに屈することなく、ビジネス継続を目的とするアプローチであるといえる。想定するリスクは何で、それらからどのプロセスを守るのか、といった戦略からドリルダウンし、重要プロセスの最大停止可能時間の算出などを経て、最終的なゴールとして、「各種災害・障害発生に耐えうるシステム」、「短期間でシステムが修復できるシステム」を構築するのが最終的なゴールとなる。

 同氏が示したデータでは、1年のうち一度でも、前面ダウンまたは部分ダウンを経験した企業は50%を超え、その多くはインフラ系の障害であるという。また、自然災害によるダウンは全体の3%ほどであるが、企業努力だけでは防げない要因がこの数字になっていることに対して、「こうした自然災害は必ず起こるものと考えるべき」と警鐘を鳴らす。

 そして、システムダウンがもたらすコスト的な影響についても同氏は触れた。システムダウン1時間あたりの財務的影響は、最も少ない製品出荷業でも約400万、金融やEコマースになると、6億円を優に超える額となる。そしてもっと憂慮すべきは、次の調査結果であろう。

  • 致命的なデータ・ロスを経験した企業は、その6%のみ存続可能
  • 被災した企業のうち、43%は業務再開するまでに至らず、51%は2年以内に倒産

では現状のサーバはどうなのか?

 現状のサーバ製品は比較的高い連続可用性を持っている。UNIXサーバで99.73%程度、IBMのeServerのうち、iSeriesでは99.94%、zSeriesでは最大99.999%である。これを停止時間で考えると、zSeriesであれば1年間に5分程度の停止時間に抑えることが理論上は可能になる。とはいえ、5分システムが停止すれば、金融業などでは約5000万の損失になる。市場はさらに高い可用性のサーバを欲しているという。

 ここで、可用性といった時には、2つの視点が必要となる。つまり、予期せぬ障害などによる計画外停止と、システムメンテナンスなどによる計画停止の切り分けである。一般的に高可用性といった時には、計画外停止時間を改善したシステムを指すが、そこにはさらに2つのアプローチがあるといえる。

 1つはシステムリソースの信頼性を高め、障害が起こらないようにする「フォールト・アボイダンス」(障害回避性)。もう1つは、障害が起こってもシステム全体が停止しないようにする「フォールト・トレランス」(耐障害性)である。これらをハードに落とし込んでいくと、例えば、サーバであればクラスタリング、ストレージであればRAIDなどになるわけである。

クラスタリングのトレンド

 クラスタリングのうち、最も信頼性が高いのは、システムリソースも処理も二重化する「デュアル」(フォールトトレラントシステム)であろう。しかしこの方法は、完全な二重化が要求されるため、多大なコストが掛かってしまい、現在ではあまり使用されない。IBMでも同技術のソリューションというよりは、zSeriesのCPUで採用されている程度である。

 現在一番使用されているのは、システムリソースを正と副として持ち、正システムに障害が発生した際に副システムに切り替えるという「デュプレックス」であろう。また、複数のシステムリソースに負荷を分散させていく「ロードシェア」も目にすることが多い。ロードシェアはIBMのzSeriesの並列シスプレックスで目にすることができる。

 IBMが提供するデュプレックス方式としては、例えばpSeriesの「HACMP」(High Availability Cluster Multi-Processing for AIX)がある。HACMPは、AIXの拡張システムで、ノード障害、ネットワークアダプター障害、ネットワーク障害などを検知し、自動復旧するシステムのことである。xSeriesであれば、IBM Directorと東芝のCluster Perfectを組み合わせによるソリューションが存在している。

 こうしたデュプレックスでは、データの格納場所は共用の外部ディスクにしておくことが多いが、内部ディスクを持つサーバでも使用できるデータ複製型のデュプレックスも存在する。ディスク障害にも対応できるが、ディスクの二重化が必要なため、ややコスト高になることと、データのミラーリングの方法によっては、データロストは避けられないこともある。

結局、災害対策ソリューションで有効なものは?

 災害対策システムは、災害を含めた全ての停止時間を改善したシステムを指し、通常のシステムとは別の場所にシステムを用意することで、大規模災害が発生した際は、そちらで業務を引き継ぐことで業務を継続させることを目的としている。問題となるのは、データをどう引き継ぐかになる。

 テープバックアップを何らかの手段で運搬する方法から、ネットワーク越しにログ、または差分情報のみを転送するもの、さらに高度なものになると、データの全転送なども考えられる。当然、後者ほど障害時の復旧時間は短くなるが、問題点もある。

 データの整合性を取りたいのであれば、同期ミラーリングが望ましいのは言うまでもないが、ネットワーク越しにこれを行うのは、転送量の問題と(ネットワーク的な)距離の問題から現実的とは言いがたい。このため、通常はジャーナリングや非同期ミラーリングが利用されることが多い。

 IBMのソリューションを見ると、eServerの各シリーズで災害対策ソリューションが用意されている。iSeriesの「HABP」、xSeriesの「PARCS」、pSeriesの「HAGEO」、zSeriesの「GDPS」といったものである。それぞれ、同期・非同期ミラーであったり、広域にまたがったクラスタの構築などを行うことで、災害対策を行っている。

 特に、GDPSでは、並列シスプレックスを複数サイトに分散させることで、非常に高い災害対策が施されている。また、将来的には、本番サイトの近距離に中間サイトを設置し、そこと同期ミラーリングを行い、中間サイトと遠方に設置したバックアップサイトとを非同期ミラーするというカスケード方式を採用することで、長距離間での同期ミラーリングを実現する予定だという。

また、同氏は、オートノミックについても触れた。各リソースから出されるエラー・解析ログは、アダプターをはさむなどして仮想化、つまり、共通のログフォーマットに変換される。オートノミックマネージャーは仮想化されたログと、ルールが記述されたポリシーエンジンを判断材料とし、対策を採るというのが、オートノミックにおける自己修復の流れである。災害対策とオートミノックという、マクロとミクロの両面からのアプローチで、どんな状況下でもオンデマンドを実現できると話し、講演を締めくくった。

関連記事
▼IBM FORUM 2004開幕、センス&レスポンスへ変革を――オンデマンドビジネスを説く大歳社長
▼さまざまな技術で彩られた未来型小売業はすぐそこまで。でも本当に大事なのは?
▼オープン標準で企業に即応力をもたらすIBMのe-ビジネス・オンデマンド構想

関連リンク
▼IBMフォーラム 2004

[西尾泰三,ITmedia]

Copyright © ITmedia, Inc. All Rights Reserved.