「障害発生時の対策が甘かった」――KDDI田中社長がLTE通信障害を謝罪
4月27日の通信障害を受けて、田中社長を中心に対策を立ててきた矢先に、auの4G LTEで5月29日と30日に再び通信障害が発生した。直近で3件もの通信障害がなぜ起きたのか。また、今後はどのように対策していくのか。KDDIの田中社長が説明した。
KDDIが6月10日、一連のLTE通信障害の原因と対策についての説明会を開催。代表取締役社長の田中孝司氏が詳細を説明した。
4月27日、5月29日、5月30日の3回にわたって、東京都、神奈川県、山梨県の一部でauの「4G LTE」のデータ通信と音声通信が利用できない、または利用しにくい状況が発生した。データ通信の障害発生時間は4月27日が16時1分から22時18分まで、5月29日が4時30分から23時13分まで、5月30日が13時4分から23時2分まで。影響数は4月27日が最大約59万、5月29日が最大約56万、5月30日が最大約64万。
5月29日には、9時30分から12時22分にかけて、関東で契約した一部のauユーザーにて、音声通信の障害(発信が約2万8000人、着信が約8万6000人)も起き、SMSの受信が遅延することもあった。5月30日にも、復旧過程で一部のユーザーが着信しにくい状況となった。
田中氏は4月30日の決算会見で、自身が先頭に立って、ソフトウェア品質の改善や障害への対応力強化などを最重要課題として取り組むことを約束した。しかしその矢先に再びLTE通信障害が発生したことについて「大変申し訳なく思っている」と謝罪した。
通信障害はLTE基地局制御装置に起因するもの
一連の通信障害は、いずれもLTE基地局制御装置(MME=Mobility Management Entity)に起因したもの。LTE端末がデータ通信を開始しようとすると、その端末がインターネットに接続していいかを、基地局がシグナリングを出す形でMMEに問い合わせ、MMEが認証する。その後、サービスゲートウェイとパケットゲートウェイを経由してインターネットに接続する。MMEは現在全国に19セットあり、今回障害が起きたのは、東京都多摩市のデータセンターにある「MME01」と「MME02」で、その配下の基地局が影響を受けた。
4月27日の通信障害では、パケットが60バイト以下に分断されたことで、フラグメンテーション処理でリセットバグが起き、MME01がダウンしてしまった(片系断が発生)。本来ならもう1つのMME02で処理できるはずだったが、MMEの各種機能処理をするための「呼処理カード」でバグが起こり、リカバリー処理できない状態になったという。その結果、輻輳を起こし、MME01とMME02でトータルシステムダウンを起こしてしまった。
5月29日に発生した通信障害は、4月27日の障害を解消するための修正ファイルをMME01に入れたところ、ハードウェア障害が発生したので、元のソフトウェアに戻す必要があると判断。結果としてMME01がダウンした。しかし、MME01の処理をMME02に引き継ぐ中で輻輳が発生し、これが内在するリカバリー処理バグを誘発した。その結果、27日と同様に2つのMMEがダウンしてしまった。
同じく29日には音声通信でも障害が発生したが、これはLTEの通信障害に伴い、端末の接続がLTEから3Gへ一斉に切り替わったため。3Gネットワークに一斉に切り替わると、そのことをパケットゲートウェイが加入者情報管理システム(HSS)に知らせる。しかし、MMEが2つともダウンしているので、MMEとHSS間で輻輳が起き、電話網の処理ができなくなってしまった。
30日の通信障害は、4月27日の障害を解消するための修正ファイルをMME01に再投入する際に起きた。まず、修正ファイル投入の準備中に、MME01の特定プロセスが過負荷になって片系断となった。さらに、MME01からMME02に処理を引き継ぐ際に、(MME02が)内在するリカバリー処理バグを誘発してしまった。その結果、30日もMME両系断に至った。
この30日の障害については、しばらく復旧報が出なかったが、6月10日にあらためて復旧報が発表された。
スマートフォン、4G時代に見合った機能安全の確立が必要
田中氏は、今回の通信障害のクリティカルな課題として、「フラグメンテーション処理にかかるリセットバグへの対処」と「リカバリー処理バグの対処」を挙げた。また復旧時間の短縮と、設備切り替え時にかかる高負荷の耐性を向上させることも重要とした。
今後の基本方針について、田中氏は「スマートフォン、4G時代に見合った機能安全の確立が必要」と話す。「スマートフォンはフィーチャーフォンと違って常時接続しており、データトラフィックは約30倍に増えた。バグが起きて1つの設備で引き受けることがあっても、フェールセーフするほどのレベルにまで上げないといけない。人は間違うものなので、予定外のことが起こる前提で、ネットワークを構築しないといけない。そのベースには、ソフトウェアとハードウェアの品質向上がある」
その上で重視するのが、「運用品質の向上」と「容量設計思想・指針の確立」だ。4月27日に通信障害を起こしながら、5月29日と30日に続けて再発した大きな理由は、「復旧の作業手順がうまく行っていなかったこと」と「MMEが片系断となった際に、想定を超えるトラフィックの負荷があったこと」。田中氏も「障害が起きたときの対策が甘かった」と認める。「スマートフォンが常時接続になり、トラフィックが30倍になっても、平時は問題なかったが、障害が発生したときの対処ができたいなかった」(田中氏)。KDDIは、今期中に総額300億円以上の追加投資を行う(うち200億円がMME、100億が付帯設備への投資)。その中で作業手順のトレーニングや作業手順の再確立(6月3日に完了)、MMEの増設などを行う。
通信障害の対象者に735円を減算
あわせて、一連の通信障害の該当者に対して、料金を返還する措置も発表した。対象となるのは、障害発生時に、いずれかの時間帯でLTEデータ通信をまったく利用できなかった人か、5月29日の障害発生時に音声通信を利用できなかった人。対象者には、通信料金の請求時に735円(税込)を減算する。「約款上は(障害が)1日を超えないと対応しないが、一連の障害は約3日間に相当するので、少し多めに計算した」と田中氏は説明する。対象者の数は「現在確認中」だが、データ通信で約64万人、音声通信で10万~20万人ほど。
「通信事業者として、ネットワークにつながることが自分たち自身の存在価値だと考えている。これができていないことに対しては、申し訳なく思っている。これをやって(=ネットワークがつながって)からこそ存在意義があると思っている。社員もそれに向かってベクトルを合わせている」(田中社長)
関連記事
石野純也のMobile Eye(5月27日~6月7日):au通信障害の原因は?/使いやすさと軽さで勝負する京セラ/日本語化も進む「Firefox OS」
5月27日から6月7日の2週間で特に大きなニュースだったのはKDDIの通信障害。なぜ相次いで障害が発生したのか。その原因を聞いた。このほか、夏モデルの説明会を開催した京セラのスマートフォン戦略と、ワイヤレスジャパンで披露されたFirefox OSも解説する。auの4G LTEで通信障害が発生――関東の一部地域で
5月29日の早朝から、関東の一部地域にて、auの4G LTEの通信障害が発生している。最大約56万回線が影響を受けている。au「4G LTE」の通信障害、利用集中で3G通信にも影響
5月29日朝に発生したau「4G LTE」の通信障害は、3Gサービスに利用が集中したため、3G通信もつながりにくくなっている。【※29日23時13分に復旧した】KDDI、auで5月29日に音声通話障害
KDDIは、auの4G LTEでデータ通信障害が発生した5月29日に、音声通話でも不具合が起きていたことを明らかにした。au「4G LTE」、再び通信障害が発生
29日早朝から発生したau「4G LTE」の通信障害は、23時13分に復旧したが、30日13時4分から、再ひ通信しにくい状況となっている。【30日23時50分に復旧した】2GHz帯 LTEはトラフィック集中エリアを重点整備:KDDI、2012年度決算発表でLTE通信障害の概要を説明
KDDIは、4月30日に行った2012年度決算発表で、4月27日からつながりにくくなった4G LTEの障害について、原因の概要を明らかにした。KDDIのau「4G LTE」、関東の一部で通信障害
東京都、神奈川県、山梨県の一部地域で、27日夕方からLTE通信が利用しにくくなった。障害は約6時間後に復旧した。新サービスの準備が裏目に:連鎖トラブルで規模が拡大――KDDI、auのiPhone/iPadで発生した通信障害を謝罪
auのiPhone/iPadで発生したメール関連の大規模な通信障害。原因は新サービスを提供するための設備作業で、1つのミスから最大288万人に影響を与えるトラブルに拡大した。KDDIが4G LTE通信障害の詳細を説明――設計・判断ミスが原因
12月31日と1月2日に、KDDIの4G LTEのデータ通信において通信障害が発生したほか、1月1日にはau ID認証決済システムの障害が発生した。KDDIは16日に、これらの原因と対策を説明した。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.