ニュース
» 2012年01月27日 10時30分 UPDATE

神尾寿のMobile+Views:ドコモに何が起きたのか 大規模障害に垣間見える、顕在化するスマホ時代の課題 (1/2)

1月25日に東京都内で発生した通信障害は、範囲は限定的だったものの、252万人のユーザーに影響を及ぼす大規模なものだった。障害の原因はスマートフォンの急速な普及と、それにともなうアプリケーションの変化にある。

[神尾寿,ITmedia]

 既報のとおり、1月25日に東京都内でNTTドコモの大規模通信障害が発生した。障害は朝8時26分に発生し、約4時間40分後の13時8分に復旧。対象エリアは東京都の14区(葛飾区・江戸川区・江東区・港区・新宿区・千代田区・中央区・品川区・文京区・墨田区・大田区・目黒区・渋谷区・世田谷区)であり、最大252万人のユーザーに影響が出た。東京都心部で、しかも平日の昼間に発生したため、かなり深刻かつ大規模な障害であったことは言うまでもない。

 25日の通信障害を受けて、NTTドコモは26日に報道関係者向けの緊急記者会見を実施。NTTドコモ 取締役常務執行役員の岩崎文夫氏が中心になり、障害の原因と今後の対策について説明した。

 ドコモの大規模通信障害はなぜ発生したのか。その原因と、背景にある問題や課題について考えてみたい。

想定数値の甘い見積もりと、交換機の構成変更が原因

Photo 謝罪するNTTドコモ 取締役常務執行役員の岩崎文夫氏

 「我々の見極めが甘かった」

 記者会見の席上、壇上にあがった岩崎氏は何度もそう謝罪した。

 今回の障害発生の直接的原因は、通信設備の処理能力が実際のトラフィックに追いつかなかったこと。専門用語でいう「輻輳 (ふくそう)」である。しかし、なぜ、25日の朝に“いきなり起きた”のか。

 巷間では、当日9時頃に起きたJR東日本 山手線のダイヤ乱れとの因果関係を問う声もあったが、このような日常的なトラフィック増は各通信事業者の設備計画では織り込みずみだ。ドコモでも、鉄道ダイヤとの関連性は繰り返し否定している。実際の原因は、岩崎氏が繰り返し語ったようにドコモ自身の見積もりの甘さやミスが重なった結果だった。

 大規模障害の発端は、この1月から導入・運用を開始した新型パケット交換機への切り替えから始まっている。この新型パケット交換機はスマートフォンによるトラフィック増に対応するため開発されたもので、厳しい導入前テストと試験運用を経て、1月20日から現行パケット交換機4台分をカバーする形で先行的な運用が始まっていた。25日は、20日からの先行運用の結果が順調だったことを受けて、さらに現行パケット交換機7台分の処理を新型パケット交換機に切り替える日だった。作業は24日深夜に実施され、25日未明には新型パケット交換機は本来の計画だった現行パケット交換機11台分の処理を担当。しかし、同日8時26分に新型パケット交換機は輻輳により動作が不安定になり、復旧まで約4時間40分におよぶ大規模障害が始まった。

 しかし、新型パケット交換機は「スマートフォンによるトラフィック増に対応する」ために導入されたはず。なぜ、現行機からの切り替えで輻輳状態を引き起こしたのか。ここにドコモの“計算ミス”があった。

 ドコモは新型パケット交換機の開発・導入にあたり、交換機と端末が常時接続できる「同時接続数」を重視していた。これはスマートフォンが従来のiモード端末よりも、常時接続でネットやアプリを利用するケースが多いからだ。全体的な容量拡大・性能向上の中でも、特に同時接続数を増やし、現行機1台あたり8万回線だった同時接続数を、新型機では60万まで引き上げている。だが、今回の大規模障害を引き起こしたのは、同時接続数ではなかった。ユーザー端末の位置登録やサーバとの接続確立で使われる「制御信号」が輻輳したのだ。

 なぜ、このような事態になったか。

 その理由は現行パケット交換機と新型パケット交換機の構成数にある。現行パケット交換機はスマートフォン急増にともなって同時接続数が逼迫していたため、同時接続数を増やすために構成数を11台にし、全体で88万の接続数を実現していた。この副次的な産物として、1時間あたりに処理できる制御信号数は2750万(1台あたり250万)にふくれ上がっていた。一方、新型パケット交換機は同時接続数の処理能力を重視した設計になっていたため、構成数を減らしても十分な同時接続数を確保できた。そこでドコモでは、交換機の構成数を従来の11台構成から新型パケット交換機では3台構成へと変更した。しかし、新型パケット交換機では同時接続数は劇的に増えていたが、1時間あたりの制御信号の処理能力は約2倍(現行機の250万から新型機は470万)にしか増えていなかった。あとは初級の算数の世界だ。“同時接続数が十分に確保できる”という理由で新型パケット交換機では現行機よりも構成数を11台から3台へと半分以下に減らしたため、1時間あたりの制御信号の処理能力が、全体で2750万から1410万に減少してしまったのである。

 むろん、ドコモでも新型パケット交換機の構成を考えるにあたり、全体の処理能力が不足しないように試算した。そこでドコモが当該エリアの制御信号量として想定したのが、1時間あたり1200万という数値だ。これは新型パケット交換機の構成では1時間あたり210万しか余裕がないが、「そもそも制御信号は、それほど使われるものではないという認識だった」(岩崎氏)。だが、25日朝の実際のトラフィックでは、1時間あたり1650万ほどの制御信号が発生。現行パケット交換機の構成では問題のなかったピーク時の制御信号の処理能力が、新型パケット交換機の構成では足りなくなり、制御信号が輻輳。大規模障害につながったのである。

       1|2 次のページへ

Copyright© 2016 ITmedia, Inc. All Rights Reserved.