ニュース
» 2013年06月10日 20時26分 UPDATE

「障害発生時の対策が甘かった」――KDDI田中社長がLTE通信障害を謝罪

4月27日の通信障害を受けて、田中社長を中心に対策を立ててきた矢先に、auの4G LTEで5月29日と30日に再び通信障害が発生した。直近で3件もの通信障害がなぜ起きたのか。また、今後はどのように対策していくのか。KDDIの田中社長が説明した。

[田中聡,ITmedia]
photo 一連の障害発生を受けて謝罪する田中社長

 KDDIが6月10日、一連のLTE通信障害の原因と対策についての説明会を開催。代表取締役社長の田中孝司氏が詳細を説明した。

 4月27日、5月29日、5月30日の3回にわたって、東京都、神奈川県、山梨県の一部でauの「4G LTE」のデータ通信と音声通信が利用できない、または利用しにくい状況が発生した。データ通信の障害発生時間は4月27日が16時1分から22時18分まで、5月29日が4時30分から23時13分まで、5月30日が13時4分から23時2分まで。影響数は4月27日が最大約59万、5月29日が最大約56万、5月30日が最大約64万。

 5月29日には、9時30分から12時22分にかけて、関東で契約した一部のauユーザーにて、音声通信の障害(発信が約2万8000人、着信が約8万6000人)も起き、SMSの受信が遅延することもあった。5月30日にも、復旧過程で一部のユーザーが着信しにくい状況となった。

photophoto 4月27日から5月30日にかけて、3回の通信障害が発生した(写真=左)。4月30日の決算会見にて、経営の最重要課題として取り組むと約束した矢先に再び通信障害が発生してしまった(写真=右)
photo 一連のLTE通信障害の概要

 田中氏は4月30日の決算会見で、自身が先頭に立って、ソフトウェア品質の改善や障害への対応力強化などを最重要課題として取り組むことを約束した。しかしその矢先に再びLTE通信障害が発生したことについて「大変申し訳なく思っている」と謝罪した。

通信障害はLTE基地局制御装置に起因するもの

 一連の通信障害は、いずれもLTE基地局制御装置(MME=Mobility Management Entity)に起因したもの。LTE端末がデータ通信を開始しようとすると、その端末がインターネットに接続していいかを、基地局がシグナリングを出す形でMMEに問い合わせ、MMEが認証する。その後、サービスゲートウェイとパケットゲートウェイを経由してインターネットに接続する。MMEは現在全国に19セットあり、今回障害が起きたのは、東京都多摩市のデータセンターにある「MME01」と「MME02」で、その配下の基地局が影響を受けた。

photophoto au携帯電話のネットワーク構成(写真=左)とLTE基地局について(写真=右)

 4月27日の通信障害では、パケットが60バイト以下に分断されたことで、フラグメンテーション処理でリセットバグが起き、MME01がダウンしてしまった(片系断が発生)。本来ならもう1つのMME02で処理できるはずだったが、MMEの各種機能処理をするための「呼処理カード」でバグが起こり、リカバリー処理できない状態になったという。その結果、輻輳を起こし、MME01とMME02でトータルシステムダウンを起こしてしまった。

photo 4月27日の通信障害は、パケットのフラグメンテーション処理にかかるリセットバグが原因

 5月29日に発生した通信障害は、4月27日の障害を解消するための修正ファイルをMME01に入れたところ、ハードウェア障害が発生したので、元のソフトウェアに戻す必要があると判断。結果としてMME01がダウンした。しかし、MME01の処理をMME02に引き継ぐ中で輻輳が発生し、これが内在するリカバリー処理バグを誘発した。その結果、27日と同様に2つのMMEがダウンしてしまった。

 同じく29日には音声通信でも障害が発生したが、これはLTEの通信障害に伴い、端末の接続がLTEから3Gへ一斉に切り替わったため。3Gネットワークに一斉に切り替わると、そのことをパケットゲートウェイが加入者情報管理システム(HSS)に知らせる。しかし、MMEが2つともダウンしているので、MMEとHSS間で輻輳が起き、電話網の処理ができなくなってしまった。

photophoto 5月29日の通信障害は、リカバリー処理バグが原因(写真=左)。LTEデータ通信の障害に伴い、音声通信でも障害が起きてしまった(写真=右)

 30日の通信障害は、4月27日の障害を解消するための修正ファイルをMME01に再投入する際に起きた。まず、修正ファイル投入の準備中に、MME01の特定プロセスが過負荷になって片系断となった。さらに、MME01からMME02に処理を引き継ぐ際に、(MME02が)内在するリカバリー処理バグを誘発してしまった。その結果、30日もMME両系断に至った。

 この30日の障害については、しばらく復旧報が出なかったが、6月10日にあらためて復旧報が発表された。

photo 5月30日にも、MMEの処理を引き継ぐ際に、リカバリー処理バグが起きてしまった

スマートフォン、4G時代に見合った機能安全の確立が必要

photo

 田中氏は、今回の通信障害のクリティカルな課題として、「フラグメンテーション処理にかかるリセットバグへの対処」と「リカバリー処理バグの対処」を挙げた。また復旧時間の短縮と、設備切り替え時にかかる高負荷の耐性を向上させることも重要とした。

 今後の基本方針について、田中氏は「スマートフォン、4G時代に見合った機能安全の確立が必要」と話す。「スマートフォンはフィーチャーフォンと違って常時接続しており、データトラフィックは約30倍に増えた。バグが起きて1つの設備で引き受けることがあっても、フェールセーフするほどのレベルにまで上げないといけない。人は間違うものなので、予定外のことが起こる前提で、ネットワークを構築しないといけない。そのベースには、ソフトウェアとハードウェアの品質向上がある」

 その上で重視するのが、「運用品質の向上」と「容量設計思想・指針の確立」だ。4月27日に通信障害を起こしながら、5月29日と30日に続けて再発した大きな理由は、「復旧の作業手順がうまく行っていなかったこと」と「MMEが片系断となった際に、想定を超えるトラフィックの負荷があったこと」。田中氏も「障害が起きたときの対策が甘かった」と認める。「スマートフォンが常時接続になり、トラフィックが30倍になっても、平時は問題なかったが、障害が発生したときの対処ができたいなかった」(田中氏)。KDDIは、今期中に総額300億円以上の追加投資を行う(うち200億円がMME、100億が付帯設備への投資)。その中で作業手順のトレーニングや作業手順の再確立(6月3日に完了)、MMEの増設などを行う。

photophoto 一連の通信障害の課題(写真=左)と、対策に関する基本方針(写真=右)
photophoto 機能安全の確立に向け、田中社長を本部長とする「LTE基盤強化対策本部」を設置。「お客さま満足度向上」「運用品質向上」「収容設計改善」「設備品質向上」のワーキンググループを作る(写真=左)。4月27日に通信障害が起きてからの取り組み(写真=右)
photo 通信障害の解消と機能安全に向けた取り組みのスケジュール

通信障害の対象者に735円を減算

photo 通信障害の対象者には735円を減算する

 あわせて、一連の通信障害の該当者に対して、料金を返還する措置も発表した。対象となるのは、障害発生時に、いずれかの時間帯でLTEデータ通信をまったく利用できなかった人か、5月29日の障害発生時に音声通信を利用できなかった人。対象者には、通信料金の請求時に735円(税込)を減算する。「約款上は(障害が)1日を超えないと対応しないが、一連の障害は約3日間に相当するので、少し多めに計算した」と田中氏は説明する。対象者の数は「現在確認中」だが、データ通信で約64万人、音声通信で10万〜20万人ほど。

 「通信事業者として、ネットワークにつながることが自分たち自身の存在価値だと考えている。これができていないことに対しては、申し訳なく思っている。これをやって(=ネットワークがつながって)からこそ存在意義があると思っている。社員もそれに向かってベクトルを合わせている」(田中社長)

Copyright© 2016 ITmedia, Inc. All Rights Reserved.