ITmedia NEWS >

ログイン障害前にも兆候──大規模障害の全貌、Skypeでも「はっきりしない」

» 2007年08月24日 19時34分 公開
[ITmedia]
障害発生からの経緯
日付 状況 関連記事
8月16日 障害発生 Skypeでサービス障害
8月17日 復旧作業続く Skypeサービス障害、徐々に復旧中
8月18日 復旧 Skypeのサービスが復旧
8月20日 Skypeが障害に言及 Skype障害の原因は「ユーザーの再起動」
8月20日 マイクロソフトが反論 「Skype障害と月例パッチは無関係」、MSが強調
8月21日 Skypeが再説明 MSパッチは障害の原因ではない――Skypeが改めて説明

 「ログイン障害前にもチャットが送れないなどの兆候はあった」──。Skype日本オフィスの岩田真一ジェネラルマネージャーは、8月24日に都内で開かれた記者会見で、今月16日に発生した障害について説明した。

 Skypeにログインできなくなる障害は、8月16日から18日にかけて発生した。2日前の14日には、月例のWindowsのセキュリティプログラムが公開されており、Skypeのネットワークに何らかの影響を与えたのではないかとの見方もあった。

 この点について、岩田氏は「Windows Updateはきっかけの1つにすぎない」とした上で、障害自体は「Skypeネットワーク自体の問題」と強調した。

 Skypeネットワークにログインする時、クライアントはまず「ログインサーバ」にログインし、次いでコンタクトリストの処理や通話のルーティングを行う「スーパーノード」に接続する。このスーパーノードは、Skypeネットワークに接続しているクライアントのうちの約1%程度。グローバルアドレスが割り当てられていたり、性能が高いマシンが自動的に選ばれる。

 スーパーノードがWindows Updateを適用して一斉に再起動すると、ログインサーバにクライアントからのアクセスが滞留し、ログインできなくなる──これが障害の正体であればWindows Updateが原因といえるかもしれない。だが、これまでもWindows Updateは毎月恒例で行われてきたし、再起動が必要なWindows Updateの回数も少なくない。なのに、なぜ今回だけ大規模な障害になってしまったのだろうか。それにWindows Updateは14日だ。Skypeのログイン障害が確認されたのが16日だったことを考えると2日間の時間差がある。

Skype日本オフィスの岩田ジェネラルマネージャー

 Windows Updateと2日間のタイムラグ──。「Windows Updateとの関連ははっきり分かっていない」という岩田氏は「ログイン集中の負荷が障害の原因ではないか」との考えを示した。

 岩田氏によると、Windows Updateの際は通常、ネットワーク全体で事前にスーパーノードの数を調整していたという。つまりWindows Updateを適用したスーパーノードが再起動することを折りこんで、若干多めにスーパーノードを設定していたというわけだ。「今回の障害では、この仕組みが上手く機能しなかった」。Skype側のログインアルゴリズムにバグがあったというのである。

 Windows Updateがあっても通常であれば一定数に保たれるスーパーノード。「それが今回は減少したため、あわててスーパーノードを追加した」。だが、スーパーノードが“復活”しても、ログインサーバに滞留したクライアントからのアクセスは大量に存在した。「一斉にログインが始まり、復活しかけていたスーパーノードが落ちていった」という。

 また、8月のWindows Updateからログイン障害の発生までの間、「チャットが送れないなどの兆候もあった」という。ログイン障害で表面化したSkypeの大規模障害だが、実は2日間のうちに「徐々におかしくなっていった」(岩田氏)のだ。ログインサーバへのアクセス集中とスーパーノード数の調整という、Skypeのログインアルゴリズムが原因の1つなのは確かだが、複合的な要因のため障害の全貌はいまだにはっきりしないのである。

 現状では一応の復旧を見ているSkype。アルゴリズムも調整したという。「日本語での告知が遅れがちだった。今後は告知体制も強化したい」とコメントした。

Copyright © ITmedia, Inc. All Rights Reserved.