ITmedia NEWS > セキュリティ >
セキュリティ・ホットトピックス

「フェールセーフが不十分だった」 KDDI、iPhone/iPadメール障害を説明 新機能の準備中に発生(1/2 ページ)

» 2013年04月25日 15時46分 公開
[岡田有花,ITmedia]
画像 謝罪する嶋谷取締役と、住吉浩次技術統括本部/プラットフォーム開発本部長

 KDDI(au)のiPhone/iPadで4月16日〜19日にかけてメール送受信が利用しづらい状態が続き、一部ユーザーで連絡先が正しく表示できないケースが起きた問題について、同社は4月25日、原因を説明した。同社の嶋谷吉治 取締役執行役員専務 技術統括本部長は「フェールセーフの考え方が不十分だった」と反省を述べ、「顧客に多大なる迷惑をかけ、心よりおわび申し上げます」と謝罪した。

 不具合は、iPhone専用に構築しているメールのリアルタイム送受信システムで発生。夏に提供予定の新機能を準備するため、システムをバージョンアップ中に、コマンドの誤りやハードウェア障害、サービス復旧手順の問題などが連続で起き、長期間にわたる不具合に発展したという。

 今後は、事前の検証内容の見直し、ハードウェア故障原因の特定、復旧手順の見直しなどを行い、再発防止に努めるとしている。準備していた新機能の詳細は「サービスのインパクト性もあるので控えたい」としており、予定通り夏に提供できる見通しという。

誤ったコマンド、ハードウェア障害……連鎖的に不具合発生

画像 バージョンアップのシナリオ

 システムのバージョンアップは、現行設備と同じ構成の新システムを事前に準備し、現行システムから順次切り替えていく形で実施。今回は、現行のユーザー認証マスターサーバと、ユーザー認証レプリカサーバ、プロキシサーバをそれぞれ、新サーバに切り替える予定だった。

 だが切り替え作業中に現行システムで不具合が発生。現行のユーザー認証マスターサーバと現行のレプリカサーバ間で認証エラーが起きた。原因は、手順書の記載ミスにより、誤ったコマンドが書かれ、サーバ間で想定外の接続が起きていたこと。メールボックスサーバなどの接続先を新システムの認証サーバに切り替えることで不具合を解消したが、この影響で16日未明、全国で最大200人が約1時間にわたってメール送受信ができない状態になった。

 次は、新システム側で問題が起きた。新システムのプロキシサーバで予期せぬエラーが発生。さらに、新システムのユーザー認証レプリカサーバが、ハードウェア障害でダウンした。当初は片系のみダウンしていたが、その後の過負荷で両系ともダウン。メールボックスサーバなどが認証サーバに接続できなくなり、16日午前8時ごろから5時間超にわたり全国で最大288万人のメール送受信ができなくなった。


画像画像画像 メール送受信不具合の背景

 この不具合を解消するため、メールボックスサーバなどの接続先を、新認証サーバから現行サーバに戻す作業を実施。これに伴いメールボックスサーバを再起動したが、再起動手順に問題があったことや、中継サーバに受信メールがたまっていた影響で、62台中24台のサーバで高負荷状態が継続。端末からのアクセス急増も重なり、最大127万人でメール送受信しづらい状況になった。

 不具合解消のため、負荷の高い処理を停止し、メモリリソースの割り当てを変えるといった対策を行ったが1日半経っても復旧しなかったため、メールボックスサーバへの流量調節を本格化。約2日半経ってやっと不具合が解消した。「メールのロストなどが起きないよう慎重に対応した結果時間がかかった。最初から流量調整をやっていればもう少し早く復旧できたのではと思う」

画像 連絡先情報の不具合に関する説明図

 また、一部のユーザーで連絡先を正しく表示できない問題も発生。メールボックスサーバの障害により、端末に保存された連絡先とサーバを同期ができなかったことが原因。同期ができない場合は、端末側の情報を削除し、サーバの情報を取り込む仕様になっていたが、今回はサーバに障害が起きていたため、端末上の情報がゼロクリアされてしまうという状態になっていた。サーバ障害の解消に伴い、連絡先も正常に見られるようになっているが、サーバ同期システム提供前(2012年6月27日以前)の連絡先情報はサーバ側にもデータがないため、再表示・復旧できないという。

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.