ITmedia NEWS > 企業・業界動向 >

「スマホ時代の考え方に変わり切れていなかった」 続発したKDDIのLTE通信障害、原因と対策は(1/2 ページ)

» 2013年06月10日 16時56分 公開
[岡田有花,ITmedia]
画像 謝罪する田中社長

 「ご迷惑、ご心配おかけし、改めてお詫び申し上げます」――KDDIの田中孝司社長は6月10日、4G LTEの通信障害が相次いだ問題について謝罪会見を開いた。障害は、「MME」(Mobility Management Entity)と呼ばれるLTE基地局制御装置のバグが起因となって発生。同社は総額300億円の設備投資を追加で行うなどしてバグやミスが起きても障害につながらない体制を整え、再発防止に努める。

障害の起因となった2つのバグ

 障害が発生したのは、4月27日、5月29日、30日。東京都、神奈川県、山梨県の一部のユーザー(それぞれ60万人前後)で、LTEデータ通信ができないか、利用できないか、利用しづらくなったほか、29日には音声通話がしづらい障害も発生した。

 障害の影響時間と人数は、4月27日が6時間17分で最大約57万人、5月29日はデータ通信が18時間43分で最大56万人、音声通話が2時間52分で発信約2万8000、着信約8万6000。30日は9時間58分、最大約64万人。


画像画像画像

画像画像画像

 障害の起因は、東京・多摩地区に設置した2台のMMEバグだ。60バイト以下の小さなパケットが届いた場合、通信カードがリセットしてしまう「リセットバグ」が含まれていた上、負荷が一定以上かかると処理できなくなる「リカバリー処理バグ」も発生。この2つのバグとハードウェア障害などの影響で2重化していたMMEが両系ともダウンし、障害につながった。

 4月27日は、MMEに60バイト以下のパケットが立て続けに3つ届き、リセットバグが発生して片系がダウン。その結果、もう片系に負荷が集中してリカバリー処理バグが起き、両系ともダウンした。

 5月29日の障害は、4月27日の障害を起こしたバグの修正ファイル投入中に起きた。片系に投入している最中、ハードウェア障害が発生。処理を切り戻したところ、もう片系に負荷が集中してリカバリー処理バグが発生、両系ともダウンした。LTEのダウンにより3Gへのハンドダウンが大量発生した結果、ユーザー情報のデータベース(HSS:Home Subscriber Server)とMMEとの通信が輻輳(ふくそう)し、音声発着信でも障害が起きた。

 30日のデータ通信障害は修正ファイルの再投入準備中に発生した。MME片系の特定のプロセスが過負荷になってダウンし、もう片系に引き継ぐ処理中に輻輳が発生、リカバリー処理バグが起き、両系がダウンしてしまった。「一気に高負荷がかからないよう手順を変えて行ったが、少し焦っていたと指摘されても仕方がないだろう」

 現在は、リセットバグが起きないようパケットを60バイト以上に調整。リカバリー処理バグにつながらないよう負荷をコントロールし、安定運用を行っている。全MMEでのバグの修正・対処は8月末までに完了させるとしている。障害の影響を受けたユーザーに対しては、7月以降700円を通信料の請求から割り引く(KDDI、LTE障害対象者の通信料700円減額へ

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.