AWS、わざとクラウド障害を起こすサービス「AWS Fault Injection Simulator」提供開始
米AWSが、わざとクラウドの障害を起こすことでアプリケーションの耐障害性を検証できるカオスエンジニアリング用サービス「AWS Fault Injection Simulator」の提供を始めた。
この記事は新野淳一氏のブログ「Publickey」に掲載された「AWS、わざとクラウド障害を起こす新サービス「AWS Fault Injection Simulator」提供開始。カオスエンジニアリングをマネージドサービスで」(2021年3月17日掲載)を、ITmedia NEWS編集部で一部編集し、転載したものです。
米Amazon Web Services(AWS)は3月15日(現地時間)、わざとクラウドの障害を起こすことでアプリケーションの耐障害性を検証できる新サービス「AWS Fault Injection Simulator」の提供を開始したと発表しました。
AWS Fault Injection Simulatorを用いることで、サーバの終了や遅延、データベース障害といった望みの障害を、あらかじめ定められたテンプレートを用いて迅速に設定し、管理しつつ実行できます。
これにより、クラウド上で稼働しているアプリケーションが、フェイルオーバーや自動ロールバック、自動停止といった障害発生時の処理を適切に行えるかどうかを試験できます。
アプリケーションの耐障害性などを高めるために実際にクラウド障害をわざと発生させて問題点をあぶりだす手法は、「Chaos Enginieering」(カオスエンジニアリング)と呼ばれています。
Netflixが2012年にカオスエンジニアリングのためのツール「Chaos Monkey」を公開したことで広く知られるようになりました。
参考:サービス障害を起こさないために、障害を起こし続ける。逆転の発想のツールChaos Monkeyを、Netflixがオープンソースで公開
AWS Fault Injection Simulatorは、これをAWS自身がマネージドサービスとして提供するものです。2020年12月に行われたイベント「AWS re:Invent 2020」で発表され、2021年の早期に提供予定とされていました。
今回の提供開始の発表と同時に、東京リージョンを含む世界各地のリージョンで提供され、利用可能になりました(ただし大阪リージョンと中国のリージョンを除く)。今後もさらに機能強化をしていくとのことです。
関連記事
- みずほ銀、システム障害で謝罪 原因はデータ移行作業や月末処理による過負荷
2月28日に発生したみずほ銀行のシステム障害の影響で、一部のATMで取り引きなどができなくなった件について、同行は3月1日に記者会見を開き、謝罪した。定期預金のデータ移行作業や月末の処理件数が重なり、システムに負担がかかったのが障害の原因という。 - システム過負荷でなぜATMにトラブルが? みずほ銀システム障害、運用面の課題あらわに
2月28日に発生したみずほ銀行のシステム障害では、想定以上のデータを処理したことでシステムに大きな負荷が掛かり、取引やATMの機能が制限され障害としてあらわれていた。 - みずほのATMでまた障害 3日夜、29台が一時停止 先日の障害とは「別の要因」
みずほの一部ATMが3日3日夜に一時停止。「ハードの不具合によりシステムセンター間のネットワーク瞬断が発生した」ためで、2月28日の大規模障害とは「別の要因で発生した」としている。 - AWS障害、5時間でほぼ復旧 気象庁Webサイトなどに影響【各サービス復旧状況を追記】
米Amazon Web Services(米AWS)が提供するクラウドサービス「AWS」の東京リージョンで、2月20日午前0時ごろに障害が発生した。発生から約5時間がたった午前5時ごろまでに大部分は復旧。AWSを利用するオンラインゲームなどに影響が出た他、気象庁の公式サイトも同時刻に一時接続できない状態になった。 - Microsoft Teamsが一時グローバルでダウン(ほぼ復旧済み) 認証システムの変更で
Microsoft Teamsが米国時間の3月15日午後、グローバルで数時間ダウンした。既に復旧済みだ。認証システムの変更が原因としている。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.