Google Cloudの大規模障害 原因と再発防止策を公表セキュリティニュースアラート

Googleは「Google Cloud」「Google Workspace」「Google Security Operations」などの複数の主要なプロダクトにおいて発生していた障害について原因と再発防止策を報告した。

» 2025年06月18日 08時30分 公開
[後藤大地有限会社オングス]

この記事は会員限定です。会員登録すると全てご覧いただけます。

 Googleは2025年6月13日(現地時間、以下同)、「Google Cloud」(GCP)をはじめとする複数のサービスで顧客に影響を及ぼした障害について報告した。この障害は米国太平洋時間の2025年6月12日10時51分に発生し、同日18時18分に復旧が完了した。

 影響を受けたのは「Google Cloud」「Google Workspace」「Google Security Operations」などの主要なプロダクトで、APIリクエストが正常に処理されない状態が続いていた。

Google Cloudの大規模障害 原因と再発防止策を公表

 原因は、Googleが提供するAPIの認証やポリシー確認、クオータ管理を担う「Service Control」内で発生した不具合にある。2025年5月29日にService Controlに追加した新機能に関連するコードに適切なエラーハンドリングがなく、意図せず空欄を含むポリシーデータが流入したことで「NullPointerException」(ヌルポインター例外)が発生し、各リージョンのService Controlプロセスがクラッシュループに陥ったと報告している。

 このコードは、展開時には問題を引き起こす経路が有効化されておらず、障害発生まで実際に動作することがなかった。機能フラグによる保護も施されておらず、異常を事前に検出できなかった。2025年6月12日10時45分頃に挿入したポリシー変更がトリガーとなり、グローバルに同期したメタデータが不具合を引き起こしたとされている。

 障害発生後、Site Reliability Engineering(SRE)チームは約2分で対応を開始し、10分以内に根本原因を特定。25分後には影響を与えていた処理経路を無効化する措置の展開が始まり、40分以内に大半のリージョンで復旧させている。ただし、us-central-1などの大規模リージョンではタスクの再起動がインフラに過剰な負荷を与えるハーディング効果が発生。完全復旧には最大2時間40分を要し、Service Controlが指数バックオフを実装していなかったことも回復を遅らせた要因とされている。

 再発防止策として、Googleは次の対処を講じるとしている。

  • Service Controlの機能をモジュール化し、障害時にもAPIリクエストの処理が継続できる設計にする
  • グローバルに同期されるデータに対して段階的な伝ぱと検証時間の確保を義務付ける
  • 重要なバイナリ変更には全て機能フラグを設定し、デフォルトでは無効とする
  • 静的解析とテスト体制を強化し、エラー検出とフェイルオープンの確保を図る
  • ランダム化された指数バックオフを全システムで徹底する
  • 障害発生時の外部向けコミュニケーション体制の改善と情報発信の迅速化を進める
  • モニタリング基盤自体の堅牢(けんろう)性を高め、プラットフォーム障害下でも可用性を維持する

 Googleは今回の障害に対し深く謝罪し、責任を明確化して再発防止にむけた具体策を実行するとしている。

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ

あなたにおすすめの記事PR