KDDI“過去最大”の通信障害、発生の経緯は? 緊急会見で判明したこと(3/4 ページ)

» 2022年07月03日 18時30分 公開
[石井徹ITmedia]

大規模障害はどのようにして発生したのか――発端は1台のサーバ

 今回、通信障害がどのようにして発生し、全国規模に拡大していったのかの詳細は明らかになっていない。通信障害とKDDIによる対応の推移については、3日11時に実施された説明会の内容をもとに記述する。

 大まかに概要を説明すると、大規模障害のきっかけはKDDIの通信ネットワークを構成するサーバの交換作業だった。メンテナンス中に小規模な通信障害が発生したため、通信経路を作業前の状態に戻す「切り戻し」作業を実施した。

 その際に、一時不通となっていたスマートフォンなどの端末からの通信リクエストが一斉に発生し、音声通話機能などを制御する「VoLTE交換機」と呼ばれるサーバ群がパンクする「輻輳(ふくそう)」と呼ばれる状況となった。さらに、モバイル通信の加入状況を管理する「加入者データベース」にも輻輳が拡大。回復が難しい全国規模の通信障害へとつながった。

 輻輳が一度生じた場合、通常の通信状況へと復旧させるには困難な過程を経る必要がある。通信リクエストが飽和状態となっている中で、処理機能を段階的に回復させる必要があるためだ。そのため、発着信や通信速度を制限する措置を実施し、通信機能の回復を図っている。

KDDI 通信障害が発生した流れをまとめた図

 通信障害の発端となったのは、1台のサーバだった。携帯電話網を制御する「コアネットワーク」と呼ばれるサーバ群を構成するもので、所在地は東京・多摩地区。2日深夜に通常メンテナンスの一環としてサーバ交換が実施されていた。

 コアネットワークのサーバの交換作業を行う場合、交換対象のサーバを通信網から切り離すためのルート変更を実施する必要がある。ルート変更の作業中を行っていた2日午前1時35分ごろ、音声通話機能を制御するサーバ群である「VoLTE交換機」で異常を知らせるアラーム(エラー警告)が発生した。

KDDI 通信障害の発端はコアネットワークのメンテナンス作業だった

 アラームを受けてネットワーク担当者が状況を確認したところ、一部の音声通話が不通となっていることが判明。サーバ交換を一度中止し、1時50分頃に交換前の通信ルートに戻す「切り戻し」作業を実施した。2日午前2時、この事故を受けてKDDI社内で事故対策本部が発足した。

 通常のメンテナンス作業(サーバ交換)を実施から回線の切り戻し作業を行うまでの時間は15分程度。KDDIで技術部門を担当する吉村和幸氏(取締役執行役員)は、この作業で15分かかることは「通常の作業時間よりも長いと思う」と見解を述べている。

 切り戻し作業後の2時17分、待機していたスマートフォンなどの端末の集中アクセスによってサーバがパンクする「輻輳(ふくそう)」状態が発生。この時点ではVoLTE交換機が輻輳状態となった。

 KDDIによると、VoLTE交換機は全国に6カ所あるオペレーションセンターに合計で18台が配置されており、全国の携帯電話端末からの通信に対応している。通常のサーバ交換作業では支障が起こらないようにシミュレーションで確認を行っているものの、今回は想定を超える速度で輻輳が加速してしまったという。

KDDI VoLTE交換機の輻輳発生から、加入者データベースの輻輳へと連鎖して障害規模が拡大した

 2日2時52分、KDDIは自社Webサイトで通信障害の発生を告知した。このときの告知内容は「音声通話およびデータ通信がご利用しづらい状況が発生している」というものだった。

VoLTE交換機の機能異常で連鎖的に不具合が発生

 VoLTE交換機の機能異常により、連鎖的に不具合が発生した。携帯電話の登録者情報を管理する「加入者データベース」と呼ばれるサーバが、連鎖的に輻輳状態となってしまう。加入者データベースでの輻輳状態の発生時刻については、3日の会見時点では明確に分かっていないという。

 コアネットワーク内部で、VoLTE交換機と加入者データベースという2つの機能が制御困難な状態に陥ったことで、状況はさらに悪化していく。加入者データベースの一部で「データ不一致」という状況が生じたため、通信エラーとなる端末が続出した。通信エラーが生じると、端末側では自動で通信を再試行するため、輻輳がさらに悪化する要因となった。

 2日3時以降、KDDIはVoLTE交換機の輻輳、加入者データベースの輻輳、データ不一致という3つのトラブルに対して対処を試みていく。まず、3時〜15時22分にかけて、VoLTE交換機の負荷軽減措置を実施した。この措置の一環として、ネットワーク側の信号要求を大幅に制御したため、電話がつながらなくなる、データ通信がつながりづらくなるといった状態が続くこととなった。

 15時22分以降、加入者データベースの負荷軽減措置を実施。総務省の要請を受けて、西日本エリアと東日本エリアを切り離して作業することとなった。総務省は「台風が到来する沖縄と奄美諸島を優先的に復旧してほしい」と要望しており、技術的に可能だった西日本と東日本の2エリアに分離しての復旧対応となった。

 2日17時、KDDIはWebサイトの障害情報を更新し、障害の原因として「2022年7月2日(土)未明の設備障害により。VoLTE交換機でトラヒックの輻輳が生じております」という記述を追加。影響について、「トラヒックの輻輳を軽減するため、流量制御などの対処を講じており」という文言を追加した。

 2日17時31分、加入者データベースのデータ不一致への対策を実施。データ不一致が生じていたサーバを順次再起動し、不一致の解消を試みた。

 3日11時、西日本エリアの復旧作業を完了。通信速度を制御しながらも、通常の通信環境へと順次回復しつつある。3日17時30分には東日本エリアの復旧作業が完了予定となっている。

KDDI KDDIの高橋誠社長(右)と、取締役執行役員の吉村和幸氏

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

最新トピックスPR

過去記事カレンダー

2024年