7月2日の未明に発生したKDDIの通信障害は、約3915万回線に影響を与えた。徐々に回復はしていったものの、ネットワークを復旧させる過程でトラフィックの制限をかけていたこともあり、通信障害からの完全復活には4日の時間を要した。これだけ大規模な通信障害が長時間続くのは、異例の事態だ。
事態を重く見た政府は、KDDIの総務省の幹部を派遣。そのアドバイスに基づき、これまた異例ともいえる日曜日に代表取締役社長の高橋誠氏が出席する記者会見を開催した。現時点では、輻輳(ふくそう)が発生したメカニズムは分かっているものの、根本的な原因とも言える交換機の挙動などは解析中だ。総務省の定める重大事故に該当するため、KDDIには行政処分がくだされる可能性が高い。
原因究明と再発防止に乗り出しているKDDIだが、こうした事故は100%防げるとは限らない。事実、KDDIの通信障害が収束した直後の7月7日には、ドコモがspモードの設備故障を起こし、一部地域でデータ通信がつながりづらい状況に陥った。規模の大小や時間の長短を問わなければ、1年に数回は起こること。その考え方を前提にしつつ、業界全体で影響を最小限に抑える取り組みをしていく必要がありそうだ。
7月2日の未明に発生した通信障害は、「部品の故障などの交換メンテナンスで、日々行われている通常の作業」(KDDI 取締役専務執行役員 技術統括本部長の吉村和幸氏)に端を発したものだった。コアルーターの経路を変更している際に、VoLTEが不通になるトラブルが発生。これを受け、KDDIは経路変更作業を中断し、メンテナンス前の環境へと切り戻しを行った。
その際に、交換機配下の端末が一斉に通信を行い、切り戻したVoLTE交換機で輻輳が発生した。この輻輳によって、通信障害が拡大していく。VoLTE交換機はネットワークセンターに計18台用意されており、「バックアップという意味では、十分対応できる設計の上で設置していた」(高橋氏)というが、何らかの理由でキャパシティーを超えてしまったようだ。
端末からのトラフィックを減らすため、流量制限をかけたものの、今度はVoLTE交換機と加入者データベース(HSS)の間で情報の不一致が発生。通常であれば、まずHSSに端末側の位置情報などを登録し、それをVoLTE交換機側で照合をかけ、一致している場合に音声通話が可能な状態になる。通信障害でこの情報に食い違いが生じた結果、音声通話が不通になるユーザーが多発した。
この事態を解消するため、KDDIはP-GWと呼ばれるネットワーク機器のゲートウェイにリセットをかけ、流量制限を維持しつつ、徐々に端末をネットワークにつなげていった。ところが、その回復過程で今度はVoLTE交換機6機から、HSSに対して異常な信号が流れていることが判明。何らかの不具合があった6台をネットワークから切り離すことで、復旧を進めていった。
この作業終了後の7月4日には、多くのユーザーの通信が回復。「個人、法人がしっかりとサービスを使っていただけるかを確認し」(吉村氏)、7月5日の復旧宣言を出すに至った。ここまで記載してきたように、KDDIの通信障害にはいくつか原因が不明な点がある。この解析と再発防止策の策定が、今後の焦点になりそうだ。
Copyright © ITmedia, Inc. All Rights Reserved.