Googleサービスでの8月20日の大規模障害について、Googleが原因と対策を説明

» 2020年08月25日 13時58分公開

[ITmedia]

　米Googleは8月24日（現地時間）、19日（日本では20日）に発生した一連のサービスの大規模障害について、原因と対策を説明した。

　この障害は、19日の午後8時55分～20日の午前3時30日に、複数のG SuiteおよびGoogle Cloud Platform製品でエラー、利用不可、配信の遅延が発生したというもの。日本でもGmailにファイルを添付しようとするとエラーが表示されるなどの不具合が数時間にわたって報告された。

Gmailの添付ファイルエラー

　問題は、小規模なものも含めると、Gmail、Googleドライブ、Google Docs、New Google Sites、Chat、Meet、Keep、Google Voice、Jamboard、Admin Console、App Engine、Cloud Logging、Cloud Storageなど多岐にわたった。

　根本的な原因は、Googleの多様なサービスで使っている、BLOB（Binary Large OBject）と呼ばれる非構造化データに共通の内部分散システムでの過負荷。このBLOBストレージシステムには、Google内部のクライアントサービスと接続するフロントエンド、メタデータ操作のための中間層、BLOB自体のバックエンドストレージが含まれる。

　別のGoogleサービスからのトラフィックの増加により、BLOBメタデータサービスの過負荷が始まって待ち時間が発生し、操作が過度に再試行されたことでリソースが使い果たされた。失敗したリクエストをキャンセルして再試行しようとすることで事態は悪化し、トラフィックがさらに増加した。

　なお、Google Cloud Storageも同じBLOBストレージシステム上に構築されているが、メタデータレイヤーが分離されていたため、被害は少なかったという。

　今後の対策として、以下を挙げた。

根本的な原因の完全修復まで、BLOBメタデータサービスへの計算リソースの割り当て増加
メタデータサービスタスク起動時のヘルスチェックの改善
メタデータ操作失敗の際に使うバックオフと再試行の戦略の改善
単体エラーがリソース全体でキャンセルリクエストのフラッドになる問題の修復
BLOBサービスのアラートの改善
BLOBサービスへのリクエストに対するより包括的なレート制限制御の実装
BLOB操作のデバッグ方法の改善
タスク間でのリソース転送速度、効率、自動化の改善
BLOBサービスのレート制限制御に関する内部マニュアルの改善

GmailとGoogleドライブなどで障害　ファイルの添付やアップロードに不具合【追記あり】
8月20日午後1時30分ごろから、Gmailのファイル添付がしづらかったり、Google ドライブでファイルのアップロードがしづらかったりする障害が発生している。
Googleのクラウドサービスで障害発生　「G Suite」「GCP」など利用できない状況に
米Googleが提供する複数のクラウドサービスで障害が発生している。3月27日午前0時過ぎに「G Suite」の各機能が利用できない不具合が発生。のちに解消したが、午前8時ごろから「Google Cloud Platform」のサービスが利用できない状態が続いている。午後5時現在、復旧中という。
Gmailの障害原因が明らかに　設定変更に“副作用”
「Gmail」「Google ドライブ」で障害が発生した件で、Googleが詳しい原因を明らかにした。
GmailとGoogleドライブで障害　メールの送受信や添付ファイルのダウンロードなどが安定せず【追記あり】
添付ファイル付きメールの送受信が不安定など、GmailとGoogleドライブで障害が発生している。