KDDI“過去最大”の通信障害、発生の経緯は? 緊急会見で判明したこと(3/4 ページ)
KDDIの7月3日、au網で発生中の通信障害について緊急会見を実施した。説明会での発言を元に、障害の状況や影響範囲、発生原因についてまとめた。
大規模障害はどのようにして発生したのか――発端は1台のサーバ
今回、通信障害がどのようにして発生し、全国規模に拡大していったのかの詳細は明らかになっていない。通信障害とKDDIによる対応の推移については、3日11時に実施された説明会の内容をもとに記述する。
大まかに概要を説明すると、大規模障害のきっかけはKDDIの通信ネットワークを構成するサーバの交換作業だった。メンテナンス中に小規模な通信障害が発生したため、通信経路を作業前の状態に戻す「切り戻し」作業を実施した。
その際に、一時不通となっていたスマートフォンなどの端末からの通信リクエストが一斉に発生し、音声通話機能などを制御する「VoLTE交換機」と呼ばれるサーバ群がパンクする「輻輳(ふくそう)」と呼ばれる状況となった。さらに、モバイル通信の加入状況を管理する「加入者データベース」にも輻輳が拡大。回復が難しい全国規模の通信障害へとつながった。
輻輳が一度生じた場合、通常の通信状況へと復旧させるには困難な過程を経る必要がある。通信リクエストが飽和状態となっている中で、処理機能を段階的に回復させる必要があるためだ。そのため、発着信や通信速度を制限する措置を実施し、通信機能の回復を図っている。
通信障害の発端となったのは、1台のサーバだった。携帯電話網を制御する「コアネットワーク」と呼ばれるサーバ群を構成するもので、所在地は東京・多摩地区。2日深夜に通常メンテナンスの一環としてサーバ交換が実施されていた。
コアネットワークのサーバの交換作業を行う場合、交換対象のサーバを通信網から切り離すためのルート変更を実施する必要がある。ルート変更の作業中を行っていた2日午前1時35分ごろ、音声通話機能を制御するサーバ群である「VoLTE交換機」で異常を知らせるアラーム(エラー警告)が発生した。
アラームを受けてネットワーク担当者が状況を確認したところ、一部の音声通話が不通となっていることが判明。サーバ交換を一度中止し、1時50分頃に交換前の通信ルートに戻す「切り戻し」作業を実施した。2日午前2時、この事故を受けてKDDI社内で事故対策本部が発足した。
通常のメンテナンス作業(サーバ交換)を実施から回線の切り戻し作業を行うまでの時間は15分程度。KDDIで技術部門を担当する吉村和幸氏(取締役執行役員)は、この作業で15分かかることは「通常の作業時間よりも長いと思う」と見解を述べている。
切り戻し作業後の2時17分、待機していたスマートフォンなどの端末の集中アクセスによってサーバがパンクする「輻輳(ふくそう)」状態が発生。この時点ではVoLTE交換機が輻輳状態となった。
KDDIによると、VoLTE交換機は全国に6カ所あるオペレーションセンターに合計で18台が配置されており、全国の携帯電話端末からの通信に対応している。通常のサーバ交換作業では支障が起こらないようにシミュレーションで確認を行っているものの、今回は想定を超える速度で輻輳が加速してしまったという。
2日2時52分、KDDIは自社Webサイトで通信障害の発生を告知した。このときの告知内容は「音声通話およびデータ通信がご利用しづらい状況が発生している」というものだった。
VoLTE交換機の機能異常で連鎖的に不具合が発生
VoLTE交換機の機能異常により、連鎖的に不具合が発生した。携帯電話の登録者情報を管理する「加入者データベース」と呼ばれるサーバが、連鎖的に輻輳状態となってしまう。加入者データベースでの輻輳状態の発生時刻については、3日の会見時点では明確に分かっていないという。
コアネットワーク内部で、VoLTE交換機と加入者データベースという2つの機能が制御困難な状態に陥ったことで、状況はさらに悪化していく。加入者データベースの一部で「データ不一致」という状況が生じたため、通信エラーとなる端末が続出した。通信エラーが生じると、端末側では自動で通信を再試行するため、輻輳がさらに悪化する要因となった。
2日3時以降、KDDIはVoLTE交換機の輻輳、加入者データベースの輻輳、データ不一致という3つのトラブルに対して対処を試みていく。まず、3時〜15時22分にかけて、VoLTE交換機の負荷軽減措置を実施した。この措置の一環として、ネットワーク側の信号要求を大幅に制御したため、電話がつながらなくなる、データ通信がつながりづらくなるといった状態が続くこととなった。
15時22分以降、加入者データベースの負荷軽減措置を実施。総務省の要請を受けて、西日本エリアと東日本エリアを切り離して作業することとなった。総務省は「台風が到来する沖縄と奄美諸島を優先的に復旧してほしい」と要望しており、技術的に可能だった西日本と東日本の2エリアに分離しての復旧対応となった。
2日17時、KDDIはWebサイトの障害情報を更新し、障害の原因として「2022年7月2日(土)未明の設備障害により。VoLTE交換機でトラヒックの輻輳が生じております」という記述を追加。影響について、「トラヒックの輻輳を軽減するため、流量制御などの対処を講じており」という文言を追加した。
2日17時31分、加入者データベースのデータ不一致への対策を実施。データ不一致が生じていたサーバを順次再起動し、不一致の解消を試みた。
3日11時、西日本エリアの復旧作業を完了。通信速度を制御しながらも、通常の通信環境へと順次回復しつつある。3日17時30分には東日本エリアの復旧作業が完了予定となっている。
関連記事
- KDDIが携帯電話ネットワークの通信障害を謝罪 完全復旧は7月3日17時30分以降見込み
au/UQ mobile/povo携帯電話において7月2日深夜から続く通信障害について、KDDIが緊急会見を実施し謝罪した。障害の復旧は、西日本エリア(静岡県/長野県/富山県以西)は7月3日11時以降、東日本エリアは同日17時30分以降を見込んでいる。 - 西日本は11時、東日本は9時――au/UQ mobile/povo携帯電話の障害復旧見込みが示される
7月2日1時15分頃から継続しているau/UQ mobile/povo携帯電話の通信障害。その回復見込みがエリアごとに示された。西日本エリア(静岡県/長野県/富山県以西)では7月3日7時15分に回復を見込んでいたが、11時頃の見込みに変更された。東日本エリアでは7時時点で70%程度回復し、9時めどに復旧を目指して見込んでいるという。【更新】 - au/UQ mobile/povo携帯電話で通信障害 全国で電話とデータ通信が利用しづらい状況に(7月2日10時現在)
7月2日1時35分頃から、KDDIと沖縄セルラー電話が運営する「au」「UQ mobile」「povo」の携帯電話サービスが利用しづらい状況となっている。同日10時現在も障害は継続中で、両社では復旧作業と原因究明を進めている。 - povoとUQ mobileでeSIMの設定ができず 原因はシステム連携先の障害(回復済み)
KDDIと沖縄セルラー電話はpovoとUQ mobileで、eSIMの設定ができない事象を確認したと案内している。povoでは6月13日午後5時50分頃から6月14日午前1時10分頃まで、eSIMプロファイルのダウンロードができなかった。原因はシステム連携先の障害で、既に復旧しているという。 - ドコモの通信障害はなぜ長期化したのか? 障害の告知方法やMVNOの扱いには課題も
10月14日に、ドコモのネットワークで大規模な通信障害が発生した。緊急通報を含む音声通話やデータ通信に影響が出た他、位置登録自体ができず、圏外になってしまったユーザーもいたようだ。ここでは、その原因を解説するとともに、通信障害が長期化した理由を解説していきたい。
Copyright © ITmedia, Inc. All Rights Reserved.