この記事は新野淳一氏のブログ「Publickey」に掲載された「障害発生時に担当者へのオンコールを自動化「Grafana OnCall」がオープンソースで公開」(2022年6月16日掲載)を、ITmedia NEWS編集部で一部編集し、転載したものです。
クラウド対応のログ可視化ツールとして知られる「Grafana」や監視システム「Prometheus」などを開発し提供するGrafana Labsは、障害発生時に担当者へのオンコールを自動化できるオンコールマネジメントソフトウェア「Grafana OnCall」をオープンソースで公開したことを明らかにしました。
Grafana OnCallは、2021年11月に買収を発表したAmirが開発したソフトウェアで、発表と同時にGrafana Cloudのクラウドサービスとしても提供が開始されました。
今回それがオープンソースとして公開されたことになります。
Grafana OnCallは、システム監視ツールから受け取ったアラートが、あらかじめ設定されたレベルを超えた場合に、自動的に運用担当者にSMSやチャットツールなどで連絡を行う、オンコールマネジメントと呼ばれる分野のソフトウェアです。
連携できるシステム監視ツールはGrafanaやPrometheusはもちろん、 Datadog、New Relic、AWS SNS、AlertManager、Zabbixなど多岐にわたり、連絡用のツールもSMSやSlackをはじめとする各種チャットツールなどに対応しています。
どのような場合にオンコールを発するかの条件は、IF文形式で設定することができます。
オンコールの連絡先は、あらかじめ設定されたその日その時間の担当者にスケジュールを基に行われるようになっています。
また、アラートの自動グルーピング機能によって、障害が継続しているあいだずっとアラートが鳴り続ける、いわゆるアラートストームを防止する機能も備えています。
これらの機能によって、別々の監視ツールからそれぞれ発せられるアラートを統合的に管理できるようになり、またあらかじめ決められたオンコール担当者に連絡を振り分ける作業も自動化されるなど、監視業務の自動化と効率化を進めることができるようになるとされています。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR