米Googleは12月18日(現地時間)、12月14日の約45分間にわたる多数のサービスダウンの原因と今後の対策について、ステータスダッシュボードで説明した。
この障害は、14日の午前3時46分(日本時間では14日の午後8時46分)から47分間続き、Googleのログイン認証サービス「OAuth」を採用するGmailやWorkspaceなどの一連のサービスが影響を受けた。
大まかに要約すると、根本的な原因は、10月にユーザーIDサービスを新しいクォータシステムに登録するための変更を行ったが、その際に古いクォータシステムの一部が残ってしまい、誤った報告があったことという。ユーザーIDサービスの使用量が誤って0と報告されたため、クォータ制限が続いて最終的に期限切れになり、自動クォータシステムがトリガーされてユーザーIDサービスのクォータが減少した。
意図しないクォータ変更を防止するための安全性チェックはあったが、単一のサービスで負荷がゼロと報告されるシナリオは想定していなかったため、猶予期間中にアラートが発生せず、ユーザーIDシステムでの読み取り操作ができなくなり、エラーが発生した。
午前3時46分に発生したこのエラーアラートで問題が検出され、午前4時8分には原因と修正方法が特定されたが、完全に回復するのには時間がかかった。
今後は、割り当て管理の自動化の変更をすぐに実装しないようにし、監視とアラートのシステムを改善するなどの複数の対策を追加する。
WorkspaceやGoogle Cloud Storageなどの各種サービスでの具体的な問題の解説を、ステータスダッシュボードで読むことができる。
Googleの45分間ダウンの原因は認証ツールのストレージクォータの問題
Googleで障害 GmailやYouTubeなど複数サービスが使えず【追記あり】
AWSで障害、「Nature Remo」「SwitchBot」などに影響 「電気消せない」と嘆く声【追記あり】
Microsoft 365がまたダウンし約3時間で復旧 原因は「ネットワークインフラの変更」
Appleのネットサービスで大規模な接続障害が発生【復旧済み】Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR