KDDIの通信障害なぜ長期化した? 過去の障害で得た知見も通用せず(1/2 ページ)

» 2022年07月04日 23時31分 公開
[田中聡ITmedia]

 KDDIが7月4日20時に、2日から発生している通信障害についての説明会を開催。取締役執行役員専務 技術統括本部長の吉村和幸氏と、執行役員 技術統括本部 副統括本部長 兼 エンジニアリング推進本部長の山本和弘氏が、4日20時時点における障害の状況と復旧の見通しを説明した。

KDDI 通信障害の状況について説明する吉村和幸氏(右)と山本和弘氏(左)
KDDI 通信障害の影響回線数

通信障害の発端と7月2日〜3日の対処内容

 まずは通信障害の経緯を整理したい。7月2日1時35分ごろから、サーバのメンテナンス中にVoLTEの交換機にアラームが発生し、一部の音声トラフィックが不通になっていることが判明したため、通信経路を作業前の状態に戻す「切り戻し」作業を実施した。その際、スマートフォンなどの端末から通信が集中してVoLTE交換機で輻輳(ふくそう)が起きた。加入者データベースにもアクセスが集中したことで、全国的な障害へとつながった。

 KDDIが2日の3時から15時22分まで、VoLTE交換機の負荷低減の作業を行った。通信リクエストが飽和状態となっている中で処理機能を段階的に回復させるべく、データや音声接続の要求を抑える流量制限を段階的に実施していった。続いて15時22分以降、東日本と西日本に収容されているPGW(モバイル網と外部網の接続点)2台を切り離し、加入者データベースの負荷低減を、17時31分以降に加入者データベースのデータ不一致を修正する作業を行った。その結果、7月3日11時には西日本エリア、17時30分には東日本エリアの復旧作業が終了した。

KDDI 7月2日から3日にかけて行った障害の対応
KDDI VoLTE交換機の負荷低減、加入者データベースの負荷低減、データ不一致の修正という3つの対処を行った

7月4日に新たな問題が判明 6台のVoLTE交換機で不具合

 一方、復旧作業終了後も、VoLTE交換機と加入者データベースの負荷が想定したほど十分に軽減されず、データ通信はおおむね回復したものの、7月4日7時時点でも音声通話は利用しにくい状況が続いていた。

 調査をしたところ、KDDIが運用しているVoLTE交換機18台のうち、6台が加入者データベースに不要な過剰信号を送信していることが判明した。加入者データベースとVoLTE交換機側に再びアクセスが集中したため、4日12時18分から13時18分に、過剰信号を出している6台の交換機を特定して切り離した。この調査に時間を要したことが通信障害を長引かせた一因となった。

KDDI
KDDI 負荷が低減されない要因となっていた、過剰信号を送信していたVoLTE交換機を特定して切り離した

 切り離しによってVoLTE交換機と加入者データベースの負荷は軽減されて障害前と同水準となり、ユーザーの発着信成功率が向上した。そこで、4日14時51分に無線設備の流量制限を解除した。現在、音声通話、SMS、データ通信ともにKDDIは「ほぼ回復」と説明しており、7月5日夕刻をめどに完全復旧しているかどうかの判断を下す。流量制限を解除したことはすなわち「(通信の)規制が一切ない状態」(吉村氏)だが、個人と法人のユーザーがしっかり使えているのかを確認した上で、5日夕刻に復旧宣言するとした。

KDDI 現在はほぼ回復という状況だ

 4日に判明したVoLTE交換機の不具合(不要な過剰信号送信)について山本氏は、「原因が見えていない。故障のタイミングがいつだったのか、ルーター障害に起因したものなのかを特定していきたい」と述べるにとどめた。「信号の中身を分析した結果、VoLTEの交換機から(加入者データベースの)統合データベース側のバランスが悪いことが気付いた。詳細を調べたところ、同じ信号が何度も出ているような動きになっていた。早く分かるように知見を高めていかないといけない」と吉村氏は振り返った。

 KDDIは4日7時から、「流量制御などの対処を講じているため、音声通話がご利用しづらい状況が継続しております」との文言をWebサイトのお知らせに追記しているが、VoLTE交換機の不具合については言及しなかった。吉村氏は「あえて出さないというわけではない。(VoLTE交換機不具合の解消は)復旧の過程の中でやっていた。お客さまへの情報提示については、分かりやすいのかも含めて考えていきたい」と述べた。

 流量制限を掛けた後、4日7時には「データ通信はおおむね回復」、4日16時に「音声通話・データ通信含め全国的にほぼ回復」とお知らせで説明しており、音声通話の回復に時間がかかった。この理由について吉村氏は「加入者データベースやVoLTE交換機など、音声通話のシーケンスがデータ通信と比べて複雑なところがあるため、時間がかかった」とも説明する。なお、音声とデータ通信は別々に制限をかけていたわけではなく、「全ての通信に対して同様の制御をかけていた」(山本氏)が、「段階的に制御をすることで、急激な(トラフィックの)流入を避けるようオペレーションしていた」とのこと。

 なお、VoLTE交換機は現在の所、18台中12台で運用しているが、「十分運用できる状況」(吉村氏)とのこと。

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

最新トピックスPR

過去記事カレンダー

2024年