買えないtotoにつながらないフレッツ?:わが社のビジネス継続性を確立する!(2/2 ページ)
ここ数日、処理能力を上回る負荷が原因とみられる大規模なサービス停止事案が続いた。いずれも幸いにしてサービス停止の長期化は避けられたようだが、信頼回復のためには、詳細な原因究明と抜本的な対策を行っていくことが欠かせない。
大規模IPネットワークでの「ドミノ倒し」
NTT東日本では、5月15日に「フレッツ」および「ひかり電話」サービスで大規模な障害が発生した。詳しい経緯はニュース記事などを参照していただきたい。
今回のトラブルの発端となったルータのメンテナンス作業は、ごく普通のハードウェア修理だった。切り替えに伴うルート情報書き換えも自動的に行われるように構成されていた。しかし、NTT東日本のIPネットワークは拡大を続けており、現在では約4000ものルータが存在している。そのすべてに対するルート情報書き換え処理が、これまでになかった規模の負荷となり、さらにほかの通信の負荷も重なって一部のルータがダウンした。「ドミノ倒し」のような形で、障害が大規模化したという状況だったようである。
旧来の固定電話が低迷する中、インターネット接続サービスやIP電話サービスはNTT東日本にとって成長が期待できる有力商品だ。ユーザー数を増やすと同時に、積極的にアクセス回線の光ファイバ化やネットワークのフルIP化に取り組み、気付けば過去に例のないほど大規模なIPネットワークが出来上がっていた。そしてルータ数の増大は(おそらく指数関数的に)ルート情報を膨れあがらせ、ついには思わぬ大規模トラブルをもたらすまでになった。
NTT東日本では、対策として機器のソフトウェア更新やルート情報の整理を進める方針だという。しかし今後もユーザー数やトラフィックの増加は続く。「ドミノ倒し」状態に陥る危険が、完全に回避できるとは考えにくい。障害が波及しないようネットワーク構成を変更するといった対策も、今後は必要になるのではないだろうか。
また、ほかの大規模IPネットワークでも同じようなトラブルが発生しうる。今回の当事者だけでなく、他の事業者もこのトラブルを他山の石として予防策を講じる必要があるだろう。
関連記事
- ビジネス継続に必要な「ヒト・モノ・カネ」って?
- バックアップをブラックホール化させないために
- バックアップは「かけがえのないデータ」だけでよい?
- 広域災害も「想定の範囲内」に収めるには
- 「予想外」は言い訳にならない?――悲観論に立つリスク分析
- ANA機胴体着陸事故とハインリッヒの法則に学ぶ
- 転ばぬ先の杖――内部統制とともに重要なBCP
- 原因は処理能力オーバー 「フレッツ」「ひかり電話」大規模障害
- NTT東フレッツの広域障害、原因はIPルータの処理能力オーバー
- ルータ2000台が3秒でダウン 「フレッツ」「ひかり電話」大規模障害
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.