Microsoft Azure、わざと障害を発生させる「Azure Chaos Studio」発表 サービスの耐障害性を確認
米Microsoftが、Microsoft Azure上で人為的に障害や性能低下などを発生させることで、アプリケーションの耐障害性を確認し改善できる新サービス「Azure Chaos Studio」のプレビュー版を発表した。
この記事は新野淳一氏のブログ「Publickey」に掲載された「Microsoft Azure、わざと障害を発生させてサービスの耐障害性を鍛える「Azure Chaos Studio」発表」(2021年11月10日掲載)を、ITmedia NEWS編集部で一部編集し、転載したものです。
米Microsoftは、Microsoft Azure上で人為的に障害や性能低下などを発生させることで、アプリケーションの耐障害性を確認し改善できる、いわゆるカオスエンジニアリングを実現する新サービス「Azure Chaos Studio」をプレビュー版として発表しました。
カオスエンジニアリングはもともと、動画配信サービスの米NetflixがAWS上で稼働する同社のサービスの耐障害性を高めるために作り出した方法論です。2012年には人為的に障害をシミュレーションするツール「Chaos Monkey」をオープンソースで公開しています。
参考:サービス障害を起こさないために、障害を起こし続ける。逆転の発想のツールChaos Monkeyを、Netflixがオープンソースで公開
このChaos Monkeyの名称などから、こうした障害のシミュレーションを用いる手法を「カオスエンジニアリング」と呼ぶようになりました。
障害が起きても支障のない業務時間内に、あらかじめ計画しておいた障害の種類をクラウドに挿入することで、万が一本当にクラウドに障害が発生したとしてもサービスを止めずに運用を継続できるか、性能低下はないか、などを訓練として確認できるわけです。
2021年3月には、このカオスエンジニアリングの機能をAWSが正式なサービスとして提供開始しています。
参考:AWS、わざとクラウド障害を起こす新サービス「AWS Fault Injection Simulator」提供開始。カオスエンジニアリングをマネージドサービスで
カオスエンジニアリングはクラウドにおけるサービス品質を高めるための手法として定着したといえるでしょう。
今回Microsoftが発表した「Azure Chaos Studio」も同様に、Microsoft Azureの純正サービスとして、カオスエンジニアリングのための機能を備えるというものです。
クラウドの障害をシミュレートするAzure Chaos Studio
Azure Chaos Studioは、障害の種類や範囲内、時間など制御しつつMicrosoft Azureでシミュレートできる機能を提供します。
障害の種類にはCPU負荷や物理メモリ、仮想メモリの負荷、ディスクI/Oの負荷、プロセスの強制終了、DNSエラー、ネットワークの遅延や切断、データベースのフェイルオーバーなどさまざまなものが用意され、今後もさらに拡大していくとのことです。
関連記事
- AWS、わざとクラウド障害を起こすサービス「AWS Fault Injection Simulator」提供開始
米AWSが、わざとクラウドの障害を起こすことでアプリケーションの耐障害性を検証できるカオスエンジニアリング用サービス「AWS Fault Injection Simulator」の提供を始めた。 - AWS、クラウド障害をわざと起こす「AWS Fault Injection Simulator」発表 カオスエンジニアリングをマネージドサービスで
米AWSが、「AWS Fault Injection Simulator」を発表。アプリケーションに対してクラウド障害のシミュレーションを行える新サービス。マネージドサービスとして提供する。 - Kubernetes上でわざと障害発生、復旧のテストができる「Chaos Mesh」がバージョン1.0に
「Chaos Mesh」がバージョン1.0に到達。Kubernetes上のシステムに対してわざと障害を発生させることで、システムの耐障害性のテストを行うためのソフトウェア。実際に障害が発生したとしても、エンジニアが問題なく対処できるようにする。 - クラウドからの情報漏えい、責任は誰に? SaaSやPaaSの大前提「責任共有モデル」とは 総務省が解説
クラウドの管理ミスで情報漏えいした――こんなセキュリティ事故の責任は誰にあるのか。クラウドサービスの利用企業が把握すべき大前提「責任共有モデル」を総務省の担当者に聞いた。 - IaaS障害はどこでどうやって起きるのか? ユーザー企業が受けるサービスダウン以外の影響とは
日本では官民でIaaSの活用が進んでいるが、大手クラウドサービスの影響力が増した分、障害発生時の影響の大きさも目立ってきた。IaaS障害に対処するには、障害が発生する場所と原因、影響範囲を知り、冗長性確保や責任の明確化などを行うのが重要だ。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.