CESで見えた2013年のトレンド/au大規模障害の原因と課題/「PadFone 2」ヒットの可能性石野純也のMobile Eye(1月7日〜18日)(2/3 ページ)

» 2013年01月19日 01時30分 公開
[石野純也,ITmedia]

KDDIのLTEが年末年始に大規模障害、ソフトウェアの設定ミスが主な原因

photo 障害の原因と対策について説明した、KDDI 技術統括本部 運用本部長の内田義昭氏

 2012年12月31日の0時から4時23分にかけ、KDDIの「4G LTE」に通信障害が発生した。同社の説明によると、この日の障害は2段階に分かれており、0時から2時55分まではデータ通信が利用不能に、2時55分から4時23分にかけては利用がしにくい状況になった。また、年が明けた2013年1月2日にも、再び4G LTEの通信障害が起こっている。2日は0時17分から2時10分までデータ通信ができなくなった。年末年始に相次いだこれらの通信障害について、KDDIは16日に説明会を開催。障害の原因と、今後の対策を発表した。

photophoto 12月31日と1月2日に発生した障害の概要。それぞれ最大180万人、175万人に影響が及んだ。ただし、4G LTEの契約者数や、OSごとの内訳は非公表
photo 4G LTE対応端末とそれ以外では、別々のネットワークにつながっている。今回、対象が4G LTE対応端末のみだったのも、そのためだ

 KDDI 技術統括本部 運用本部長の内田義昭氏によると、4G LTE対応端末のみが障害の対象になったのは、WIN(EV-DO)端末とは収容される「信号中継装置」や「信号制御装置」「加入者プロファイルサーバー」が異なるため。4G LTEに対応していると、EV-DOエリアでもそちらに接続される。

 障害発生のきっかけは「LTE対応端末でアクセスが瞬間的に多発し、利用通信量制御の認証を行う加入者プロファイルサーバのメモリがオーバーフローして、セッションが解放され、端末がまた接続に行くことが負のスパイラルになり、輻輳が起きてしまった」(内田氏)ためだ。平常時の7倍を超えるアクセスがあり、こうした状況に陥った。

 通常であれば、加入者プロファイルサーバから応答がないと、その直前にある信号制御装置は3秒で要求を破棄し、セッションを解放する仕組みになっている。問題は、その前に置かれている信号中継装置が3秒よりも早い、2秒でタイムアウトする設定になっていたことだ。これによって、遅延しつつも2秒以上3秒以内で返っていた応答まで、信号中継装置でタイムアウトの扱いにされてしまい、セッションの解放がいっそう進んでしまった。こうした設定になっていたのは、「開発時の設計考慮不足」(同氏)というのがKDDIの見解だ。

photophotophoto 平常時の7倍にもなるアクセスが発生し、加入者プロファイルサーバが信号を破棄。信号中継装置と信号制御装置のタイマーに不整合があったため、輻輳状態が加速し、端末側からは再接続要求がさらに上がるという負のスパイラルに陥った

 すでに対策は一部完了しており、まず「信号制御装置の待受けタイマーを、信号中継装置のタイマーより短く設定した」(同氏)。次に、「加入者プロファイルサーバからの応答がない、遅延がある場合でも、信号制御装置が代理応答することで、信号中継装置のタイマー超過を防止する」(同氏)機能を導入した。簡単に言うと通信混雑時に限って加入者プロファイルサーバをスキップする仕組みで、一時的にLTEの7Gバイト(テザリング契約時は7.5Gバイト)超過時にかかる制限を適用できなくなるが、「本当にまれなことだと思っているので、設備を守るためにこういう形で実施した」(同氏)。加入者プロファイルサーバの増設も「12日に実施し、24日には完了する」(同氏)といい、対策全体で平常時の14倍程度のトラフィックを処理できる能力を持たせる。

photophoto タイマーの設定変更や、信号制御装置の代理応答機能で、対策を行った

 一方で、2日の通信障害は人為的なミスという色合いが濃い。2日には信号制御装置で異常が発生。これを知らせるアラームが発報されたが、本来であれば予備系に切り替えればよかったところを、装置全体を再起動してしまい、4G LTE対応端末のセッションが解放された。なぜ本来すべき復旧装置ができなかったのか。理由は非常に単純で、「手順書が未整備だった」(同氏)ためだ。あまりに初歩的なミスだが、それゆえに対策もすぐに実施した。KDDIでは、1月8日までに手順書を整備。訓練も実施し、同様の障害を防いでいく構えだ。

photophotophoto 2日の通信障害は原因が12月31日のものとは異なり、ヒューマンエラーによるものだ。手順書が不整備だったという、大きなミスを犯してしまった
photo それぞれの障害への対策。先に挙げたもの以外にも、加入者プロファイルサーバーの増強などを行っている

photo 「au ID」の障害については、KDDI 新規事業統括本部 新規ビジネス推進本部長 雨宮俊武氏が解説した

 では、なぜ12月31日に平常時の7倍を超えた、いわゆる「バーストトラフィック」が発生したのか。実は12月30日以前にも、「瞬間的にはアクセスが6倍程度になることはあった」(同氏)といい、原因は「十分把握していない」(同氏)。4G LTE対応端末は日々増えていること、自動更新の時間が初期状態で0時ちょうどにセットされているアプリが多いことなど、さまざまな要因が複合して偶然このタイミングでしきい値を超えてしまったようだ。

 加えて、1月1日には「au ID」の利用ができなくなる障害も発生している。これについては「データを、どのメモリに割り振るかのアロケート処理を誤っていた」(KDDI 新規事業統括本部 新規ビジネス推進本部長 雨宮俊武氏)のが主な原因だ。こちらは、すでにパラメーターを修正して、対策が完了しているという。

photophotophoto 11月のハードウェア増強時のメモリの割り当て設定を誤り、認証システムが高負荷になってしまった。12月はそのままで持ちこたえることができたが、1月にしきい値を超え、問題が顕在化した格好だ。パラメーターの変更などの対策は、すでに行っている

 ちなみに、NTTドコモでも一昨年から昨年前半にかけ、同様にバーストトラフィックに端を発する障害が頻発した。その際、KDDIの代表取締役社長、田中孝司氏は「スマホの影響はデータ量だけでなく、トランザクションの数や制御信号など、いろいろなところをモニターしている。それに合わせて増設をかけていくしか、今はない」と述べていたが、結果だけを見れば、残念ながら当時の教訓が生かされていなかったと言わざるをえない。また、ユーザーへの告知方法も少々分かりにくかったように感じる。音声網が生きているのであれば、何らかの方法で通知はできたのではないか。障害を起こさないのはもちろんだが、万が一のことが起こった際の対応もぜひ見直してほしい。

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

最新トピックスPR

過去記事カレンダー

2024年