Googleは「Google Cloud」「Google Workspace」「Google Security Operations」などの複数の主要なプロダクトにおいて発生していた障害について原因と再発防止策を報告した。
この記事は会員限定です。会員登録すると全てご覧いただけます。
Googleは2025年6月13日(現地時間、以下同)、「Google Cloud」(GCP)をはじめとする複数のサービスで顧客に影響を及ぼした障害について報告した。この障害は米国太平洋時間の2025年6月12日10時51分に発生し、同日18時18分に復旧が完了した。
影響を受けたのは「Google Cloud」「Google Workspace」「Google Security Operations」などの主要なプロダクトで、APIリクエストが正常に処理されない状態が続いていた。
原因は、Googleが提供するAPIの認証やポリシー確認、クオータ管理を担う「Service Control」内で発生した不具合にある。2025年5月29日にService Controlに追加した新機能に関連するコードに適切なエラーハンドリングがなく、意図せず空欄を含むポリシーデータが流入したことで「NullPointerException」(ヌルポインター例外)が発生し、各リージョンのService Controlプロセスがクラッシュループに陥ったと報告している。
このコードは、展開時には問題を引き起こす経路が有効化されておらず、障害発生まで実際に動作することがなかった。機能フラグによる保護も施されておらず、異常を事前に検出できなかった。2025年6月12日10時45分頃に挿入したポリシー変更がトリガーとなり、グローバルに同期したメタデータが不具合を引き起こしたとされている。
障害発生後、Site Reliability Engineering(SRE)チームは約2分で対応を開始し、10分以内に根本原因を特定。25分後には影響を与えていた処理経路を無効化する措置の展開が始まり、40分以内に大半のリージョンで復旧させている。ただし、us-central-1などの大規模リージョンではタスクの再起動がインフラに過剰な負荷を与えるハーディング効果が発生。完全復旧には最大2時間40分を要し、Service Controlが指数バックオフを実装していなかったことも回復を遅らせた要因とされている。
再発防止策として、Googleは次の対処を講じるとしている。
Googleは今回の障害に対し深く謝罪し、責任を明確化して再発防止にむけた具体策を実行するとしている。
Copyright © ITmedia, Inc. All Rights Reserved.