KDDIの通信障害なぜ長期化した? 過去の障害で得た知見も通用せず(1/2 ページ)
KDDIが7月4日20時に、2日から発生している通信障害について、現状と復旧の見通しを説明した。通信障害の原因はVoLTE交換機の輻輳(ふくそう)だが、負荷低減を行ったにもかかわらず、音声通話が利用しにくい状況が続いていた。調査をしたところ、KDDIが運用しているVoLTE交換機18台のうち、6台が加入者データベースに不要な過剰信号を送信していることが判明した。
KDDIが7月4日20時に、2日から発生している通信障害についての説明会を開催。取締役執行役員専務 技術統括本部長の吉村和幸氏と、執行役員 技術統括本部 副統括本部長 兼 エンジニアリング推進本部長の山本和弘氏が、4日20時時点における障害の状況と復旧の見通しを説明した。
通信障害の発端と7月2日〜3日の対処内容
まずは通信障害の経緯を整理したい。7月2日1時35分ごろから、サーバのメンテナンス中にVoLTEの交換機にアラームが発生し、一部の音声トラフィックが不通になっていることが判明したため、通信経路を作業前の状態に戻す「切り戻し」作業を実施した。その際、スマートフォンなどの端末から通信が集中してVoLTE交換機で輻輳(ふくそう)が起きた。加入者データベースにもアクセスが集中したことで、全国的な障害へとつながった。
KDDIが2日の3時から15時22分まで、VoLTE交換機の負荷低減の作業を行った。通信リクエストが飽和状態となっている中で処理機能を段階的に回復させるべく、データや音声接続の要求を抑える流量制限を段階的に実施していった。続いて15時22分以降、東日本と西日本に収容されているPGW(モバイル網と外部網の接続点)2台を切り離し、加入者データベースの負荷低減を、17時31分以降に加入者データベースのデータ不一致を修正する作業を行った。その結果、7月3日11時には西日本エリア、17時30分には東日本エリアの復旧作業が終了した。
7月4日に新たな問題が判明 6台のVoLTE交換機で不具合
一方、復旧作業終了後も、VoLTE交換機と加入者データベースの負荷が想定したほど十分に軽減されず、データ通信はおおむね回復したものの、7月4日7時時点でも音声通話は利用しにくい状況が続いていた。
調査をしたところ、KDDIが運用しているVoLTE交換機18台のうち、6台が加入者データベースに不要な過剰信号を送信していることが判明した。加入者データベースとVoLTE交換機側に再びアクセスが集中したため、4日12時18分から13時18分に、過剰信号を出している6台の交換機を特定して切り離した。この調査に時間を要したことが通信障害を長引かせた一因となった。
切り離しによってVoLTE交換機と加入者データベースの負荷は軽減されて障害前と同水準となり、ユーザーの発着信成功率が向上した。そこで、4日14時51分に無線設備の流量制限を解除した。現在、音声通話、SMS、データ通信ともにKDDIは「ほぼ回復」と説明しており、7月5日夕刻をめどに完全復旧しているかどうかの判断を下す。流量制限を解除したことはすなわち「(通信の)規制が一切ない状態」(吉村氏)だが、個人と法人のユーザーがしっかり使えているのかを確認した上で、5日夕刻に復旧宣言するとした。
4日に判明したVoLTE交換機の不具合(不要な過剰信号送信)について山本氏は、「原因が見えていない。故障のタイミングがいつだったのか、ルーター障害に起因したものなのかを特定していきたい」と述べるにとどめた。「信号の中身を分析した結果、VoLTEの交換機から(加入者データベースの)統合データベース側のバランスが悪いことが気付いた。詳細を調べたところ、同じ信号が何度も出ているような動きになっていた。早く分かるように知見を高めていかないといけない」と吉村氏は振り返った。
KDDIは4日7時から、「流量制御などの対処を講じているため、音声通話がご利用しづらい状況が継続しております」との文言をWebサイトのお知らせに追記しているが、VoLTE交換機の不具合については言及しなかった。吉村氏は「あえて出さないというわけではない。(VoLTE交換機不具合の解消は)復旧の過程の中でやっていた。お客さまへの情報提示については、分かりやすいのかも含めて考えていきたい」と述べた。
流量制限を掛けた後、4日7時には「データ通信はおおむね回復」、4日16時に「音声通話・データ通信含め全国的にほぼ回復」とお知らせで説明しており、音声通話の回復に時間がかかった。この理由について吉村氏は「加入者データベースやVoLTE交換機など、音声通話のシーケンスがデータ通信と比べて複雑なところがあるため、時間がかかった」とも説明する。なお、音声とデータ通信は別々に制限をかけていたわけではなく、「全ての通信に対して同様の制御をかけていた」(山本氏)が、「段階的に制御をすることで、急激な(トラフィックの)流入を避けるようオペレーションしていた」とのこと。
なお、VoLTE交換機は現在の所、18台中12台で運用しているが、「十分運用できる状況」(吉村氏)とのこと。
関連記事
- KDDI“過去最大”の通信障害、発生の経緯は? 緊急会見で判明したこと
KDDIの7月3日、au網で発生中の通信障害について緊急会見を実施した。説明会での発言を元に、障害の状況や影響範囲、発生原因についてまとめた。 - 完全復旧は「7月5日夕方」めどに au/UQ mobile/povo携帯電話の通信障害
7月2日から継続しているau/UQ mobile/povo携帯電話の通信障害について、KDDIが報道関係者向けに経過説明会を開催した。その中で、ネットワークの完全な復旧が7月5日夕方になる見通しが示された。 - au/UQ mobile/povo携帯電話の通信障害が「ほぼ回復」 ネットワーク試験の検証を実施中
7月2日1時15分頃から発生しているau/UQ mobile/povo携帯電話の通信障害について、KDDIが「全国的にほぼ回復」した旨を告知した。現在ネットワーク試験の検証を行っている所で、本格的な再開(復旧)については別途案内するとしている。 - ドコモが14日の通信障害について謝罪 「われわれの見積もりが甘かった」
NTTドコモが、10月14日に発生した通信障害に関する記者会見を開催。障害の原因は、IoT端末向けの加入者/位置情報サーバを旧設備に切り戻す際のネットワークの輻輳。切り戻しの際に「想定した以上のトラフィックが発生した」という。 - ソフトバンク通信障害の原因は「エリクソンの技術的ミス」 エリクソン・ジャパンが説明
エリクソン・ジャパンが、12月6日に発生したソフトバンクの通信障害の原因について説明した。通信障害が発生した原因は、コアネットワークにあるMME(Mobility Management Entity)のソフトウェア証明書の有効期限が切れていたため。ただし根本原因は依然として調査中。
Copyright © ITmedia, Inc. All Rights Reserved.