ニュース
» 2013年01月17日 01時00分 UPDATE

KDDIが4G LTE通信障害の詳細を説明――設計・判断ミスが原因

12月31日と1月2日に、KDDIの4G LTEのデータ通信において通信障害が発生したほか、1月1日にはau ID認証決済システムの障害が発生した。KDDIは16日に、これらの原因と対策を説明した。

[田中聡,ITmedia]

 KDDIが1月16日、年末年始に発生した「4G LTE」の通信障害について、原因と対策を説明した。

12月31日の通信障害はアクセス集中、信号制御装置の設計ミスで発生

photo KDDI 技術統括本部 運用本部長の内田義昭氏。なぜ12月31日に7倍のアクセスが起きたのかは「まだ十分に把握していない」とのこと

 2012年12月31日の0時0分から2時55分にかけて、auの4G LTEのデータ通信が「利用できない」状況、そして同日2時55分から4時23分にかけて、同データ通信が「利用しにくい」状況が発生した。全国の地域で、最大180万回線に影響を及ぼした。

 通信障害の発生原因について、KDDI 技術統括本部 運用本部長の内田義昭氏が説明した。今回の通信障害が発生したLTEネットワークは、「基地局制御装置」と「信号中継装置」、(7Gバイトなどの)通信量を制御する「加入者プロファイルサーバ」で構成されている。加入者プロファイルサーバは、アクセスが集中したときの対策として、各種装置からの信号を破棄する機能を備えている。12月31日の障害時は、通常時の7倍ものアクセスが集中したことで信号破棄機能が働き、信号中継装置への無応答や応答遅延が発生し、セッションが解放(切断)された。そして、再送信号や端末からの再接続が増えたことで信号が輻輳し、LTE端末が接続できなくなった――というのが障害の経緯だ。

photophoto 12月31日の通信障害の概要(写真=左)。KDDIは現在CDMA 2000 1x(以下1x)、EV-DO Rev.A(以下EVDO)、LTEという3つのネットワークを用いた通信サービスを提供している。auのLTEスマートフォンでは、音声は1x、データ通信はEVDOかLTE、という具合に3種類のネットワークを使うことになるが、今回の障害はLTEネットワーク上で発生した(写真=右)

 12月31日の障害は2つのケースで発生している。1つが、アクセスが集中したことで加入者プロファイルサーバのバッファ(キュー)があふれ、信号を破棄して無応答になるケース。もう1つが、バッファはあふれていないが、加入者プロファイルサーバの認証が遅延したケース。通常、加入者プロファイルサーバは、通信量制御の認証要求に対して0.1秒ほどで応答できるが、加入者プロファイルサーバから信号中継装置に応答が返ってくるまでの時間は最大2秒、信号制御装置に応答が返ってくるまでの時間は最大3秒にタイマーが設定されている。この2秒/3秒を超えても応答がないと、セッションを解放する。

 問題は、(先に信号が戻る)信号制御装置のタイマーが3秒、(後に信号が戻る)信号中継装置のタイマーが2秒だったこと。これにより、31日のアクセス集中時には、信号制御装置で受け付けた2秒強から3秒以内の信号が、信号中継装置では(2秒以上なので)破棄され、セッションが解放されてLTE端末で通信できなくなってしまった。こうしたタイマー値の不整合は「本来あるべき姿ではない」と内田氏。同氏が障害の原因を「(装置の)設計考慮不足だった」と話すとおり、今回の障害は装置の設計次第で防げた部分もあった。

photophotophoto 信号中継装置→信号制御装置→加入者プロファイルサーバに送られた信号が、信号制御装置→信号中継装置と経由して戻っていくことでLTE通信が確立する。この信号が返ってくるまでのタイマーの値が、信号中継装置<信号制御装置だったのが問題であり、加入者プロファイルサーバから近い信号制御装置のタイマーを短くすべきだった。こうしたタイマー値の不整合により、タイムアウトしてセッションが解放されてしまった(写真=左)。通常は0.1秒で応答するので、不整合でも問題にならなかった(写真=中)。障害時にはバッファあふれで信号が破棄されたほか、2秒以上3秒以内の応答時間でも信号が破棄されてしまった(写真=右)

 KDDIはこの障害の対策として、信号制御装置の待受けタイマーを3秒から1.2秒に変更する(信号中継装置の待受けタイマーよりも短くする)。そして信号制御装置の「代理応答」機能を追加する。加入者プロファイルサーバからの応答がなかったり、応答に1.2秒以上かかったりしても、信号制御装置が代理応答することで、信号中継装置のタイマー超過を防止する。これによって信号中継装置からLTE端末へのセッション解放しなくなり、LTE端末の再接続を防げるようになる。さらに、処理能力を向上させるため、1月12日から加入者プロファイルサーバを増設し、24日に完了する予定。

※初出時に「(信号制御装置の待受けタイマーよりも短くする)」との記述がありましたが、正しくは「(信号中継装置の待受けタイマーよりも短くする)」です。お詫びして訂正いたします(1/17 17:19)

photophoto 2つの対策を実施することで、タイマー値の不整合と、プロファイルサーバの無応答・遅延が解消される

 「12月31日に7倍のアクセスが起きるとは想定していなかった。結果を見ると7倍のアクセスに耐えられない設計だったが、実際は先ほどのような対策(待受けタイマーの変更と代理応答)をしていけば、間違いなく7倍程度でも処理できるものだった」と内田氏は説明する。さらに、サーバを増設しなくても、上記2つの対策により、今の2倍以上、つまり14倍ほどのアクセスには耐えられるという。なお、アクセス集中が発生したのは、内田氏によると、スマートフォンのアプリから自律的に通信を行うことが大きいようだが、「(VoIPやメッセンジャーなど)ある特定のアプリというわけではない」とのこと。

 今回の不具合は4G LTEネットワーク上で起きたものだが、「EVDO(3G)のスマートフォンでもアクセス集中自体は起きており、しっかりと対策している。今回は、タイマー値の不整合や加入者プロファイルサーバでの破棄などを、十分考慮した設計になってなかった」(内田氏)とのことで、「LTEだから起きた」というわけではないそうだ。

1月2日の通信障害は“装置アラームの誤発報”がきっかけ

photo 1月2日の通信障害の概要

 続いて、年明けの2013年1月2日には、0時17分から2時10分まで、全国で4G LTEのデータ通信が利用しにくい状況が発生し、最大175万回線に影響を及ぼした。

 この障害のきっかけは12月31日の障害とは異なり、信号制御装置で「装置アラーム」が誤発報したこと。その際、本来は装置のカード系切り替えを実施すべきだったところを、オペレーター運用者が装置全体の復旧措置を実施してしまい、LTE端末とのセッションがすべて切断されてしまったという。これにより、LTE端末がいっせいに再接続を要求し、輻輳が発生した。アラームが誤発報した原因はソフトウェアの不具合で、本来は異常でないものを異常と判定するよう基準に含めていたそうだ。KDDIは信号制御装置のソフトウェア不具合を改修することで対処する(1月8日に完了)。

 この通信障害の問題は、運用者が誤って装置全体の復旧措置を実施してしまった点にもある。これは、「装置アラームが発生したときの手順書に、何をすべきかがぽつんと抜けていた」(内田氏)ためだという。「アラームの説明は書かれてあったが……。きちんと手順書を作り上げていくのが当然だった」と同氏。KDDIは対策としてアラーム対応手順書を整備したほか、1月8日に対応訓練を実施した。

photophoto 信号制御装置のアラームが発報した原因(写真=左)。アラーム発報後の手順がしっかり整備されていなかったのも一因だ(写真=右)
photo 4G LTE通信障害の対策まとめ

パラメータ設定の誤りでau ID認証決済システムに障害

photo KDDI 新規事業統括本部 新規ビジネス推進本部長の雨宮俊武氏

 上記2つの通信障害とは異なるが、1月1日にはau ID認証決済システムで障害が発生し、auスマートパスや店頭でのau ID払い出しなど、au ID認証決済システムを利用しているサービスが「(1)利用できない」、または「(2)利用しにくい」状態となった。発生日時は(1)が1月1日0時12分から2時29分まで、(2)が9時33分から13時33分まで。影響ユーザー数は(1)が最大80万人、(2)が最大150万人(重複もあり)。

 月初には、毎月のauかんたん決済利用限度額のクリア処理が行われるため、アクセスが集中するが、大量の処理を行うための容量は確保できている。ただ、2012年11月にデーターベース処理能力拡大のために、ハード増強を実施したところ、メモリアロケート(メモリ割り当て)処理のパラメータ設定に誤りがあったという。そのため、大量のオンライン処理が実行されたときに、データーベース群のCPUに過剰な負荷を与え、au IDの障害につながった。

 KDDIはメモリアロケート処理のパラメータを変更して障害が起きないことを確認したほか、監視項目の見直しも実施した。いずれも1月10日に実施済み。1月4日には、復旧時間短縮に向けた手順を見直した。

 「メモリアロケートでは、データが来たときに、どのメモリにデータを割り振るかを処理する。これまでは、いったん1つのCPUでメモリを解放して空き部分を作ってから、メモリを割り当てるというパラメータ設定だった。今回変えたのは、すべてのCPUを見て、空きメモリを優先して割り当てるようにしたこと。以前はメモリを解放してからアロケートしていたが、今回はアロケートするだけになるので処理が軽くなる」とKDDI 新規事業統括本部 新規ビジネス推進本部長の雨宮俊武氏は説明する。

photophoto au ID認証決済システム障害の概要と発生箇所
photophoto 今後の対策(写真=左)。au ID認証決済システムを利用するサービス(写真=右)

 今回の障害は、タイマー値の不整合や装置アラームのソフトウェア不具合、パラメータの誤りなど、設計ミスで起きた側面が大きい。「設計は日夜力を入れているところ。それぞれの装置自体は、素晴らしく良くできているが、全体を見たときの深掘りが十分ではなかった。我々としては、もう一度、装置個々ではなく、両隣や3つ4つ先、装置全体を含めて徹底的に見直していきたい」(内田氏)。

 KDDIは通信障害を防止する全般の施策として、アクセス集中時における装置間の連携動作を確認する。これは1月30日に完了する予定。

Copyright© 2016 ITmedia, Inc. All Rights Reserved.