この記事は新野淳一氏のブログ「Publickey」に掲載された「GitHub、全サービスがデータベースの設定変更ミスでアクセス不能に。設定を元に戻して30分後に復旧」(2024年8月19日掲載)を、ITmedia NEWS編集部で一部編集し、転載したものです。
米GitHubは日本時間8月15日午前8時2分(世界協定時8月14日23時2分)から8時38分までの約30分のあいだ、全てのサービスがアクセス不能となる障害が発生していたことを報告しました。
障害の原因はデータベースの設定変更ミスでした。設定変更に間違いがありGitHub内の重要なサービスがデータベースに接続できなくなったことで障害が発生。設定を元に戻すことで復旧されました。
報告の内容を時系列で見ていきましょう。
障害発生の3分前。日本時間8月15日午7時59分に、GitHub.comの全データベースに対して誤った設定変更が行われ、ルーティングサービスから送出されるヘルスチェック用のPingに応答する機能に影響がでました。
その結果、ルーティングサービスはアプリケーショントラフィックのルーティング先とすべき稼働中のデータベースが検出できなくなります。
これにより8時2分からGitHub.comの広範なサービスが影響を受け、利用できなくなりました。
サービス停止から14分後の8時16分に、障害を受けて調査中との報告を「https://www.githubstatus.com/」にて公開。
続いて8時29分には、データベースに問題があるとして設定をロールバックしているところだと報告。
データベースの設定を元に戻すことで原因を解決。8時38分にトラフィックが再開し、サービスが復旧されます。
8時45分には完全に復旧したことと継続してモニタリング中であることを報告しています。
GitHubは今回の障害を受けて、データベースの変更管理プロセスに追加の安全措置(ガードレール)を導入するとし、またロールバックの高速化、依存関係による障害への体制強化などにも優先順位を付けて取り組むとしています。
江崎グリコ、システム障害たたり純利益半減 上半期決算
トレンドマイクロが身売りを検討中 関係者
障害が続いた「ネイチャーリモ」、“抜本的な対策”をメーカーに聞いた 「ローカル対応、進める」
世界同時多発ブルースクリーンは「保険上の大惨事」 専門家は多額の請求予想Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR