米Googleは、9月1日にGmailで起きたサービス障害の原因について、ルータの過負荷によるものだったことを明らかにした。
障害の発端となったのは、同日朝に定期アップグレードのため、Gmailの一部サーバをオフラインにしたことにあると同社は説明している。これらサーバがオフラインになっている間、GmailのWebインタフェースはほかのサーバにトラフィックを送る。このときに、リクエストルータ(トラフィックを適切なGmailサーバに転送するサーバ)の幾つかが過負荷状態になった。Googleが最近リクエストルータに変更を加えた際に、「負荷を少し過小評価していた」ためだという。
過負荷状態のリクエストルータからほかのルータにトラフィックが転送され、さらに過負荷状態のルータが増え、数分のうちにすべてのリクエストルータが過負荷になった。この結果、Gmailサーバにリクエストが転送されず、ユーザーがGmailにアクセスできなくなった。ただし、IMAP/POPアクセスの場合は違うルータを使っているため、通常通りに動いていた。
Googleのエンジニアリングチームはキャパシティ不足が問題であると気づき、リクエストルータを追加してサービスを復旧させたという。
Googleは、Gmailの障害は約100分に及んだとしている。同社は初めこれを「小さな問題」と呼んでいたが、「重大な問題」として扱うと謝罪している。同社は既にリクエストルータを増やすなどの対策を取っており、ほかにも再発防止策に取り組むと述べている。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR