ドコモ、通信障害の原因と対策を説明する謝罪会見を開催

» 2012年08月08日 09時42分 公開
[園部修,ITmedia]
Photo 深々と頭を下げる代表取締役副社長の岩崎文夫氏

 NTTドコモが8月7日、7月25日と8月2日に発生した通信障害について、原因と対策を説明する会見を開催した。冒頭、代表取締役副社長の岩崎文夫氏は「2012年初頭にspモードの大規模障害などで行政指導を受け、再発防止に努めてきたが、再び今回の障害が発生し、多くのお客様にご迷惑をおかけしたことを深くお詫びします」と頭を下げた。

spモードの問題はソフトウェア更新時のミス、「0000」による被害拡大

 まず7月25日に発生した、別のユーザーのspモードの各種設定画面にアクセスできてしまい、パスワードが一致した場合には設定情報の閲覧や変更ができてしまった件については、ソフトウェアバージョンアップ作業時のミスにより起こったという。発生時刻は1時41分。その後不具合の事象を確認し、9時14分に設定画面を表示する受け付けサイトを停止するまでの間に、誤ったアクセスやアドレスの変更、迷惑メールフィルタの設定変更などが起きた。9時14分にはサイトを停止し「メンテナンス中です」というメッセージを表示してユーザーからアクセスできなくして対策を行い、13時17分に再びサイトをオープンしてサービスは復旧した。

 影響人数は、メールアドレスやWi-Fiパスワードが変更された人が約780人、迷惑メール関連設定を変更されてしまった人が約4600人。合計でのべ5380人が被害を受けた。同様にメールアドレスやパスワード、設定の変更を行ってしまった人がほぼ同数おり、影響人数はおおよそ1万1000人弱だという。

 7月25日の事象は、spモードシステムのバージョンアップ作業時に、2つあるシステムのうち1つの更新作業で間違った設定ファイルを提供したことから発生した。spモードには、約1200万の契約があり、それを処理するため、最大800万契約を収容できる2組のシステムで運用している。これをここではA面とB面と呼ぶ。A面とB面は並列して運用されており、ユーザーがスマートフォンの電源を入れたときに、A面かB面どちらかのシステムが割り当てられる。A面とB面には、それぞれメールの送受信などを担うメールサーバと各種設定サービスを処理するサーバ、収容しているユーザーの情報を管理する収容管理テーブルがある。このB面の各種設定などを司るサーバのソフトウェアアップデート時に、本来であればB面の収容管理テーブルを参照するよう設定すべきところ、A面の収容管理テーブルを参照する設定になってしまったという。これは、A面用のバージョンアップファイルを誤ってB面に適用してしまったことから起きた。

Photo ドコモが説明に用いた7月25日の事象の概要図

 つまり、B面に収容されていたspモードユーザーが、各種設定にアクセスした際、A面で管理されている情報を参照してしまう設定に書き換わっていたため、別人の各種設定画面を表示してしまっていた。

 ドコモでは、ソフトウェアのバージョンアップ作業をする際に、それが正しいファイルかどうか、ファイル名、ファイルサイズ、ファイルの更新日時を確認する手順を必ず踏んでいるが、今回は正しいファイル名、ファイルサイズ、ファイルの更新日時だったため、このチェックをすり抜けたという。A面に適用するファイルも、B面に適用するファイルも、運用を効率化するため、同じファイル名を用いていたため、最初にファイルを作成した時点で内容が間違っていたが、事前のチェックで問題点を把握できなかった。今後は、A面用とB面用でファイル名を変えて独立して管理するほか、ソフトウェアの更新前後で、追加/変更した機能の確認と、A面・B面がそれぞれ独立して動作しているかの確認を行うなどの対策を取り、再発防止に努める。

 ただ、本来パスワード入力が必要な各種設定画面で、ユーザーが誤って(自分のものと誤解して)情報を変更してしまった背景には、パスワードを初期設定の「0000」のままspモードを利用している人が約6割いたという問題もある。iモードからspモードに乗り換えるユーザーの利便性を考慮して採用した「0000」の初期設定パスワードが、かえって徒になった格好だ。パスワードが任意の4ケタの数字に変えてあれば、ここまで被害は拡大しなかった可能性もあり、この点については今後「ユニークな番号に変えていただくよう、ご案内や変更のお願いをしていきたい」と岩崎氏は話した。現在ドコモには、spモードパスワードのほかにMy Docomoのパスワードや端末暗証番号など、複数の異なるパスワードが多数あるため、これが混乱の元になっているという指摘もある。パスワードの統一なども考えつつ、抜本的な解決を目指す意向だという。

通信障害は他社ネットワークの輻輳から国内ネットワークの問題に発展

 一方8月2日に発生した事象は、国際ローミングサービスWORLD WINGが利用しづらい状態になった影響により、さらに関東甲信越、東海、関西地域でFOMAとXiが利用しづらくなったというもの。海外オペレーターからの通信は、NTTコミュニケーションズのネットワークを通ってドコモのネットワークに流れてきているが、このNTTコミュニケーションズのネットワークにある、「コントロール線」と呼ばれる装置間での連絡や制御を行う回線が混雑し、輻輳が起きたことから、ユーザーがどこにいるのかを確認する「IP-SCP(サービス制御装置)」に影響が及び、国内のサービスが利用しづらくなった。

 影響を受けたユーザー数は、国際ローミングの音声通話とパケット通信に関するものがこれまでの利用実態からの推計で約7万人、関東甲信越、東海、関西で契約したFOMAおよびXiのユーザー最大約145万人。

 ドコモの説明によると、NTTコミュニケーションズのネットワークで発生した輻輳により、ドコモ側のネットワークとの接続が不安定(接続したり切断したりを繰り返す状態)になり、その結果として国際ローミングを利用中のユーザーが、実際に海外にいるかどうかを確認するIP-SCPからの信号に対する応答が戻りにくくなって、信号処理機能が大幅に低下したのだという。一定時間、相手の装置からの応答がない場合は、通信を強制終了する処理を行い、信号管理テーブルに情報を書き込むが、NTTコミュニケーションズのネットワークが不安定になったためこの終了させるための要求が殺到し、管理テーブルの終了要求が満杯になってIP-SCPの処理能力が大幅に低下。このIP-SCPは国内ユーザーに対しても同じものを利用しているため、国内のユーザーも位置登録ができなくなって端末が圏外表示になったりした。IP-SCPの管理テーブル自体を監視して警報を出すような仕組みは作るのが難しいとのことで、問題の発見が遅れた。

Photo 8月2日に発生した事象の概要図

 対策としては、通信処理機能の低下を予期する方法を盛り込んで、8月中旬までに新しいソフトウェアの更改を行うとした。今後は国際専用線の不安定な状態が国内ネットワークの障害につながらないように対策するという。

 もともとNTTコミュニケーションズ側のネットワークの問題が原因だったため、ドコモではNTTコミュニケーションズとの接続を遮断するという「最終手段」(岩崎氏)も検討したそうだが、それをやると海外との通信ができなくなってしまうという問題があった。通信は切れていたわけではなくあくまでも不安定になっていたので、障害発生中に利用できていた人もいたため、実行しにくかったという。それが結果的には国内の145万人への影響につながってしまった。

再発防止に努める

 ドコモでは、2011年末から2012年初頭にかけて発生したネットワーク障害を受けて、「ネットワーク基盤高度化対策本部」を設立し、「スマートフォン増大に伴うトラフィック増への対応」「異常時のバーストトラフィックへの対処」「ネットワーク装置やspモードサーバなど、端末の連携強化」「ネットワーク装置やspモードサーバなどの処理能力の再検証」「ネットワーク関連処理手順の再検証」「通信障害時の端末からの再接続要求に対する処理の平準化」といった対策を講じてきた。今回発生した障害は、これらとはまた別の問題ではあったものの、再び問題が起きてしまったことに対し「何か共通する背景要因があるのではないか」という指摘もあった。ドコモは「これらの事象はまったく違う範囲で起こったもので、関連性はない。しかし、通信障害が発生したということで、これまで以上に、仕事のやり方や開発のし方をしっかり点検し、再発防止に努めている」(岩崎氏)という。

 「お客様からの信頼感は低下していると認識しています。ドコモのやり方に抜けがないか、やり方に深さが足りなくないか議論して、お客様の信頼を回復できるよう、障害を繰り返さないよう、歯を食いしばってやっていきたいと思います」(岩崎氏)

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

最新トピックスPR

過去記事カレンダー

2024年