ニュース
» 2013年04月25日 23時26分 UPDATE

新サービスの準備が裏目に:連鎖トラブルで規模が拡大――KDDI、auのiPhone/iPadで発生した通信障害を謝罪 (1/2)

auのiPhone/iPadで発生したメール関連の大規模な通信障害。原因は新サービスを提供するための設備作業で、1つのミスから最大288万人に影響を与えるトラブルに拡大した。

[平賀洋一,ITmedia]

 4月16日から19日にかけてauのiPhone/iPad向けEメールシステムで発生した一連の通信障害について、KDDIが25日にその原因を説明し、再発防止策など今後の対策を発表した。

 今回の通信障害は、3つのトラブルが連鎖的に発生したことで規模が拡大。さらに復旧まで長時間かかる結果となってしまった。その直接の引き金となったのは、この夏に提供予定という、新サービスに備えたシステムのバージョンアップ作業で、その作業手順書に記載ミスがあったことが発端だという。

 KDDI取締役執行役員専務 技術統括本部長の嶋谷吉治氏は、「ユーザーと関係する皆様に大変なご迷惑をおかけして申し訳なく思っております。KDDIは年末年始に長時間におよぶLTEの障害を起こしており、改善活動を続けておりましたが、それが不十分であったと強く認識しております。心よりおわび申し上げます」と謝罪した。

photo 謝罪するKDDI取締役執行役員専務 技術統括本部長の嶋谷吉治氏(写真=左)と、理事 技術統括本部プラットフォーム開発本部長の住吉浩次氏(写真=右)
photophoto 通信障害の全容(写真=左)。影響を受けたのは、iPhone/iPad向けのリアルタイムEメール送受信システムだった(写真=右)

 問題のバージョンアップ作業は、商用サービスを中断しないよう現行システムと新システムを用意して実施。その過程でユーザー情報のコピーを行う際に、手順書に記載されていた誤ったコマンドが入力され、ユーザー認証サーバとプロキシーサーバ間でエラー(データの欠損)が発生して、最初の通信障害が4月16日未明の0時35分に起こった。

 この1度目の障害は、新旧のユーザー認証サーバとプロキシーサーバを切り替えることで解消し、1時間6分後の1時41分に復旧。この段階の影響人数は全国で約200人で「事故としては軽微な部類」(嶋谷氏)になるという。

photophoto バージョンアップ作業の手順(写真=左)。2系統あるシステムをさらに新旧で分け、マスターとレプリカの2つのユーザー認証サーバで順にバージョンアップするシナリオだった(写真=左)。しかし、本来つながるはずのない2つのサーバが同期し、データの欠損が発生。最初の通信障害につながった(写真=右)

 その後、システムが正常に戻ったことを確認してバージョンアップ作業を継続したが、今度はバージョンアップ後の新プロキシーサーバで予期せぬタイムアウトエラーが発生した。この時点で商用サービスに影響は出ていなかったが、さらなるトラブルを回避するため、バージョンアップ前の現行設備に切り替える作業を開始。ところが、新ユーザー認証サーバの1つにハードウェア障害(ディスクコントローラの故障)が起こり、2重化していたはずの片系も高負荷によりダウンしたため、結果としてEメールの送受信ができなくなり、16日の8時8分に2度目の通信障害を引き起こした。

 2度目の障害は、新旧サーバの接続を変更してメールボックスサーバを再起動することで、昼過ぎの13時29分に復旧した。しかし発生から5時間21分が経過しており、全国で最大288万人が影響を受けることになった。また、メールボックスサーバが再起動するまでにインターネットへの中継サーバに大量の受信メールが滞留、それを処理する過程で62台中24台のメールボックスサーバに高い負荷がかかり、3度目の通信障害を引き起こす結果になった。

photophoto 最初のトラブルを復旧した後で、タイムアウトエラーとサーバのハードウェア障害が相次いで発生(写真=左)。滞留したメールが増えたことで、メールボックスサーバとストレージ(共有ディスク)の処理が遅くなり、メールの送受信がしにくくなり、端末の連絡先情報が上書きされるエラーが起こった

 3度目の通信障害は、2度目の障害が復旧した16日13時9分から19日未明の2時54分に復旧するまで、丸2日と13時間25分も継続して約127万人に影響を与えた。「メールボックスサーバへのトラフィック流量を調整して高負荷状態が解消するのを待ったが、メールの喪失を防ごうと慎重な手順を踏んだため、復旧に時間がかかってしまった」(嶋谷氏)という。なおメールの喪失は1件も確認されていない。

 障害中はメールが送受信しづらくなっただけでなく、iOSの連絡先情報(連絡先、カレンダー、リマインダー)も利用しくにい状態が続き、ユーザーによっては復旧後も連絡先情報が一時的に消えるケースが発生している。

 連絡先情報が消える問題についてKDDIは、改めてサーバと同期するなどの復元方法を案内している。ただし、auのiPhone/iPad向けリアルタイム受信サービスは2012年6月27日以前に作成された連絡先情報を保管しない仕様のため、2012年6月27日移行に連絡先に新規のアドレスを登録していない場合は、通信障害中の同期によって過去のデータを含めたすべての連絡先情報がクリアされている恐れもある。

 嶋谷氏は「2012年6月27日以前の情報を保管しないのはサービスの仕様としてこれまでも告知してきた」としているが、今回の障害が直接の原因になった場合は個別に対応する方針だ。なお、一連の通信障害に対して約4万件の問い合わせがあり、連絡先情報に関するものは約2400件が寄せられた。さらに、2012年6月27日以前の情報がクリアされたと思われるケースが180件寄せられているという。

根本は「フェールセーフの認識不足」

 4日間に渡る通信障害を引き起こした3つのトラブル。KDDIはそれぞれの原因に合わせた対策を打ち出している。1度目の原因となった作業手順書の記載ミスは、事前の検証不足も重なり机上のチェックと試験環境でのチェックもすり抜けていた。また、ユーザーデータが欠損してエラーの原因となった新旧サーバ間の誤接続については、本来つながるはずのない2つのサーバが誤ったデータを同期している。

 KDDIではこの点を重視し、手順書のチェックと作業のリハーサルプロセスの総点検、事前試験の内容を見直すだけでなく、試験環境と商用環境の差を考慮した検証体制を4月末までに確立する。また、こうした体制を5月末までに全社に徹底させるという。

 2度目の障害の原因になったサーバのハードウェア障害については、その原因と分析を5月末までに終える予定だ。ただし、2重化していたはずのサーバが高負荷でダウンするなど冗長性が失われていた点は深刻で、嶋谷氏は「特定まで時間がかかった上、(朝の通勤時間やお昼休みなど)トラフィックが集中する時間帯に差し掛かってしまったのが直接の原因」としつつも、「この点を指摘されると返す言葉もない。極めて深刻に受け止めている」と釈明した。

 現在は同様の2重障害が発生した場合に備えて、すでに復旧手順やユーザー認証サーバの切り替え時間短縮といった取り組みが完了。現時点でサーバの切り替え時間は、約2時間程度に改善されているという。

       1|2 次のページへ

Copyright© 2016 ITmedia, Inc. All Rights Reserved.