米Googleは12月18日(現地時間)、12月14日の約45分間にわたる多数のサービスダウンの原因と今後の対策について、ステータスダッシュボードで説明した。
この障害は、14日の午前3時46分(日本時間では14日の午後8時46分)から47分間続き、Googleのログイン認証サービス「OAuth」を採用するGmailやWorkspaceなどの一連のサービスが影響を受けた。
大まかに要約すると、根本的な原因は、10月にユーザーIDサービスを新しいクォータシステムに登録するための変更を行ったが、その際に古いクォータシステムの一部が残ってしまい、誤った報告があったことという。ユーザーIDサービスの使用量が誤って0と報告されたため、クォータ制限が続いて最終的に期限切れになり、自動クォータシステムがトリガーされてユーザーIDサービスのクォータが減少した。
意図しないクォータ変更を防止するための安全性チェックはあったが、単一のサービスで負荷がゼロと報告されるシナリオは想定していなかったため、猶予期間中にアラートが発生せず、ユーザーIDシステムでの読み取り操作ができなくなり、エラーが発生した。
午前3時46分に発生したこのエラーアラートで問題が検出され、午前4時8分には原因と修正方法が特定されたが、完全に回復するのには時間がかかった。
今後は、割り当て管理の自動化の変更をすぐに実装しないようにし、監視とアラートのシステムを改善するなどの複数の対策を追加する。
WorkspaceやGoogle Cloud Storageなどの各種サービスでの具体的な問題の解説を、ステータスダッシュボードで読むことができる。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR