こうしたサーバやストレージの冗長化は、これ以降で紹介する手法ほど技術的にも難しくないのがメリットだが、データセンターそのものがダウンしてしまうと、バックアップも含めてストップしてしまう。「空調の故障でデータセンター内のサーバ全体がダウンした」「データセンターの電源が落ちた」といったトラブルには対応できない。

アベイラビリティゾーンで分ける

　それらの障害に対応したい場合はアベイラビリティゾーン（AZ）のレベルで冗長化を検討することになる。「アベイラビリティゾーン」という言葉の用法はIaaS事業者によって違うが、ここでは「独立した電源を持つデータセンター」とする。サーバを2倍に増やすのは同じだが、それぞれを別のデータセンターに配置する手法だ。

　AZは同じ敷地内に複数ある場合もある。例えば、さくらインターネットの石狩データセンターには3つの建屋があり、それぞれが分かれる形でAZを構成している。それぞれの建屋は独立した電源と空調設備を備えているため、1カ所がダウンしてもサーバが全部停止することはない。

石狩データセンター

　しかしこれでもまだ不安が残る。AZを2つ使っても、場所がほぼ同じなら自然災害で全てのAZが影響を受ける可能性があるからだ。個別に電源があっても全て一気にダウンすれば当然バックアップにはならない。

リージョンを分ける

　最終手段が、地域を分ける手法だ。東京都と大阪府など地理的に離れた場所にあるAZを使って冗長化する方法で、自然災害にも対応できる。東京リージョンと大阪リージョンが両方ダウンする場合はまずない。

　しかし、この手法にはハードルもある。冗長化の基本は同じものを2つ用意することだが、離れた場所に同じものを用意するのは技術的に難しい。情報を同期するには双方で通信しないといけないが、同期の失敗が障害の原因にもなり得るのだ。

　「CAP（PACELC）定理といって、地理的に離れた2地点で冗長化するとき、一貫性と可用性は両立できないという法則があります」と大久保氏。離れた場所の間の冗長化を図ろうとするとパフォーマンスが落ちるだけでなく、応答性も悪くなる。こうしたメリットとデメリットを考えつつ、冗長化を検討する必要がある。

バックアップ側を動かしておくか止めておくか

　冗長化の手法には規模の他に、バックアップ側の動かし方の軸がある。こちらは大きく分けて「ホットスタンバイ」「コールドスタンバイ」の2種類だ。ホットは実際に稼働している状況、コールドは稼働準備段階にある状況を指す。

　障害が発生したとき、バックアップのマシンにすぐに切り替えられることを「アクティブ・ホットスタンバイ構成」という。逆に、平時は稼働しておらず、障害が起きたときにサブマシンを一から起動しなければならない場合を「アクティブ・コールドスタンバイ構成」という。

　アクティブ・ホットスタンバイ構成は即座に対応できるのがメリットだが、常にハードを稼働状態にさせておく必要があり、通信費などのコストが増加する要因となる。逆にアクティブ・コールドスタンバイ構成では、切り替えに時間がかかるのがデメリットだが、ハードウェア運用のコストは低くなる。

冗長化を考える基準はSLO

　このように、冗長化にはさまざまな手法がある。どの手法をとるか考える際に基準となるのが「SLO」（Service Level Objective）とコストだ。

　「費用対効果を考えつつ、適切なSLOを見定めるのが大事です」（大久保氏）

　SLOとは「サービスの品質目標」という意味。例えば「サービスの稼働率は99.9％を目指す」など、可用性、性能、サポートなどの品質目標を定めたものだ。

　冗長化しなくてもSLOを満たせるなら、新たに冗長化を検討する必要はない。例えば、すでにSLOを満たしているのに、東京大阪間でリージョンを分けて冗長化するのはどう考えてもコストの無駄だ。

　障害が与えるビジネスインパクトと冗長化にかかるコストも考慮して、どの程度の品質を保てばいいのかをエンジニアと経営者が判断しSLOとしてまとめるのが重要になる。

　冗長化を検討する際には、無駄を出さないよう、まず自社のサービスを見直すのが大切だ。

IaaS障害はどこでどうやって起きるのか？　ユーザー企業が受けるサービスダウン以外の影響とは
日本では官民でIaaSの活用が進んでいるが、大手クラウドサービスの影響力が増した分、障害発生時の影響の大きさも目立ってきた。IaaS障害に対処するには、障害が発生する場所と原因、影響範囲を知り、冗長性確保や責任の明確化などを行うのが重要だ。
IaaS障害、ユーザー企業はどう対処すればいい？　クラウドベンダーが教える対応法と振り返り
IaaS障害は一種の災害のようなもので、ユーザー企業側では解消できない。しかしユーザー企業のサービスは自力で復旧させる必要がある。障害発生時や収束後にユーザー企業がやるべきことをクラウドベンダーに聞いた。
設定ミス→漏えいの影に潜む“クラウドへの誤解”　いま理解したい「責任共有モデル」
クラウドサービスの活用が広がるのに比例して発生する、設定ミスに起因するセキュリティ事故。数々のインシデントが報じられる中、なぜこういった事故はなくならないのか。ガートナージャパンの亦賀忠明さんによれば、背景には日本企業特有の「クラウドへの理解不足」があるという。
「クラウドは信頼できない」は本当か？　AWS、Office 365、自治体IaaSの障害を経て、私たちが知っておくべきこと
2019年は国内外で、大規模なクラウドサービスの障害が相次いで発生した。それに伴い、「クラウドサービスは信頼できないのでは」といった議論も巻き起こった。だが、オンプレミスにも課題はある。メリットとデメリットを認識した上で、クラウドとうまく付き合っていくべきだろう。そのために必要な基礎知識と考え方を、ITジャーナリストの谷川耕一氏が解説する。