システム監視のアラートメール地獄、戦いはいつ終わる?

ECサイトのダウンタイムを少しでも減らすべく監視ツールを導入したものの、膨大なアラートメールの処理に追われるハメになるとは……。残業続きで情シスチームは崩壊寸前、どうする、チームリーダー、魚住まもる!

» 2018年04月26日 10時00分 公開
[PR/ITmedia]
PR

今回のストーリーは?

深夜11時。もう大方の社員が帰宅し、がらんとしたオフィスの片隅で、魚住まもるのチームだけが黙々と作業を続けていた。彼らが担当するのは、社外の顧客に公開するECサイトや、社内ユーザーが利用する社内システムのインフラ運用監視。システム自体はそこそこ安定して稼働しているにもかかわらず、魚住のチームに所属するメンバー5人はこのところ残業に次ぐ残業で、皆、疲労の色を濃くしていた。特に、メンバーのひとりである東郷リンカにかかる負担は重く、いら立ちを隠せないようだ……。

登場人物

情シスリーダー 魚住まもる

ECサイト運営企業の情シス部門リーダー。2つのECサイトと3つのWebサービス、社内システムを運用しており、全100台強のサーバを5人のチームで運用している。進歩的な考え方の持ち主で勉強熱心。部下には単純作業ではなく、できればより付加価値の高い仕事ができる環境を用意したいと思っており、クラウド化や運用管理の自動化に関心を持っている。趣味はバスでの一人旅とラズパイ工作。


情シス部門スタッフ 東郷リンカ

魚住の部下の情シス女子(メガネっ娘)。ITの知識ゼロのところからスタートし、一人前の情シスに育った。日々の“作業”の多さには閉口しており、少々キレ気味。“人間だからこそできる仕事”をしたいと思っている。


魚住の元上司で大手ECサイトのCIO 座美楠男

魚住の前職の上司。ECサイト運営企業のCIOを務めている。ビジョンを大事にしており、いつも部下の“will”(何をしたいのか)を最優先で考えている。セミナーや勉強会にもフットワーク軽く参加し、社外の情シスからも慕われている。インフラ周りの技術動向に詳しく、特にZabbixに関しては一家言を持つ。


アラートメールの処理に追われる毎日

ふぅ……終わらないですね……。

photo

……。

photo

(あれ?聞こえてないのかな?)終わらないですね!!

photo

あぁ、そうだね。悪いね、連日、残業続きで。

photo

別に、魚住さんが悪いわけじゃないでしょ。

photo

……。

photo

でも、どうしてこんなに忙しいんですかね。別に、障害がしょっちゅう起きてるわけでもないのに。

photo

悪いね、本当……

photo

スイマセン、別に魚住さんを責めるつもりはなかったんですけど……。でも本当なら今やってるレポート作業なんて、昼間のうちに終わってたはずですよね。でもここ最近、ふと気が付くともう夜になってるし……。そういえば、今日の昼間は何やってたんでしたっけ?

photo

Zabbixから上がってきたアラートメールに追われ続けてたよなぁ。アプリ側からの監視依頼がここ最近増え続けているから、アラートの数が増えるのはある意味しょうがないんだけど……でも、何とかしたいとは思ってるんだ。

photo

特にここ数週間はひどいですよ! 新しいアプリケーションのリリースに伴って一気にアラートの数が増えて、メールボックスはあっという間にパンパンですよ。アラートメールを分類して、Excelの台帳に転記する作業だけでも、毎日何時間も取られてますからね。これじゃあ、残業続きになるのもしょうがないですよ。

photo

手間かけて悪いね。でも、アラートのメールをただメールボックスに放り込んでおくだけじゃあ、管理のしようもないからね。

photo

でも……Excelに入れたところで、これだけアラートの数が多いと管理しきれないですよね。何かいい手はないですかね……。

photo

勉強会での思わぬ再会が解決の糸口に?

 久々の休日となった土曜日、魚住の姿はZabbixの勉強会の会場にあった。仕事の効率を少しでも向上させるヒントが見つからないかと、わらをもつかむ思いで参加したのだ。残念ながら、すぐ役立ちそうな情報を得られなかったが、代わりに思わぬ出会いがあった。前職の上司だった座美楠男との、5年ぶりの再会だ。以前から彼の見識の広さに尊敬の念を抱いていた魚住は、早速相談を持ち掛けてみた。

とにかく、Zabbixからばんばん送られてくるアラートメールをさばくだけで、毎日、手いっぱいなんですよ。おかげで僕も部下たちも連日残業続きで、このままじゃあ倒れる人も出てきそうで。

photo

ああ、それね。よく聞く話だね。

photo

え、そうなんですか?

photo

うん。大体、始めのうちは皆、メールボックスにいっぱいたまったアラートメールを前にぼうぜんとしてしまうんだよね。1つひとつのアラートの内容を確認したり、特定のアラートとアラートをひも付けて現象を分析するために、いちいちメールボックスの中身を検索したりするんだけど、すぐ「こんなのやってられん!」ということになるんだよ。

photo

そうそう、うちもまさにそんな感じですね!

photo

それで次に思い付くのが、アラートメールの内容をExcelに転記して、見やすいように管理する方法なんだよ。

photo

はい、はい。

photo

でも、Zabbixの適用範囲が広がって、アラートの数が増えれば増えるほど、人手で転記する手間もどんどん増えていって、限界が来ちゃうんだよね。

photo

そうそう、そうなんです! この状態から抜け出す方法って、何かないんですか?

photo

幾つか方法はあるけど、今すぐ試せるのはクラウド型の運用管理ツールかな。

photo

クラウド型の運用管理ツールですか。最近ちょくちょく聞きますけど、いろいろ種類があって、正直よく分からないんですよね。

photo

確かにそうだね。今ではいろんなベンダーからクラウド型の運用管理ツールが出ているし、それぞれ特徴があるから、自分たちに合ったサービスを選ぶのはそう簡単じゃないかもしれない。でも、今言ったみたいなZabbix周りの運用を楽にしたいんだったら、IIJがやっている統合運用管理サービスなんかいいんじゃないかな? 確か、無料のお試し版もあったような気がするから、きっと簡単に試せると思うよ。

photo

ふーん、あのIIJがやってるサービスですか……ありがとうございます! 早速試してみます。

photo

アラートメールの転記作業が一切無用に! でも……

 翌月曜日。魚住は出社早々、早速IIJの統合運用管理サービスが60日間無料で使える「お試し利用キャンペーン」に申し込んだ。何でも、Zabbixのアラートメールをクラウドサービス側で受け取って、自動的にチケット化してくれるらしい。クラウドなのでハードウェアやソフトウェアを自社環境に導入する必要はなく、ただZabbixのアラートメールの宛先を自社のメールアドレスからクラウドサービスのメールアドレスに書き換えるだけで簡単に試せるという。

 試しに、Zabbixのアラートメールの宛先を、IIJから指定されたメールアドレスに書き換えたところ、当然のことながらこれまでばんばん飛んできたアラートメールはぴたりと止んだ。その代わり、クラウド上のチケットシステムの画面を開いてみると、なんとアラートが自動的にチケット化さているではないか!

魚住さん、これすごいじゃないですか! Zabbixから飛んできたアラートメールが、勝手にチケットになって整理されてるじゃないですか。これでもう、いちいちアラートメールを手でExcelに転記しなくて済みますね!

photo

うん、メールアドレスを書き換えるだけでここまでできると……けっこう、すごいかも。

photo

よし! これで仕事の量がかなり減りそうですね。ところで、このチケットってどうすればいいんですか?

photo

ん? ああ、確かに、えーと……もともと、Excelで管理してた台帳って、どんな使い方してたんだっけ?

photo

へ? だって、私の役目はExcelに転記するだけでしたから、知りませんよそんなこと。魚住さんがあれ使って、何かやってたんじゃないんですか?

photo

(そういえば、あの膨大なサイズのExcel、ちゃんと管理できていなかったし真面目に中身を分析したこと今まで一度もなかったぞ……それにこのチケットだって、ちょっとお試しで使っただけでも、とんでもない量が吐き出されてるし……そもそも、俺たちは何のためにアラートを管理しようとしてたんだっけ?)

photo

魚住さん?

photo

ああ! とにかくExcelへの転記作業がいらなくなったのは朗報だけど、これだけチケットがいっぱいあると、どれからどう手を付けたらいいか見当がつかないなぁ。

photo

まぁ、そうですね。

photo

(そうだな、まずは本当にチェックすべきアラートだけに絞り込まないと、たぶん何も始まらないぞ。それに、すぐ対応すべきアラートが絞り込めたとして、それをどうやって管理者に通知するかも考えないと。つくづく、これまでのアラート監視体制は甘かったな……)。座美さんに相談してみるか……。

photo

……そうですか。じゃ、お言葉に甘えて、今日は定時に帰って良いですか? あと、次の金曜は代休を取りたいんですけど!

photo

大量のチケット、どうさばく?

 これまで自分たちが行ってきたZabbixのアラート対応を、これを機に全面的に見直すことを決意した魚住。あらためて座美に、自分たちが現在抱えている課題について相談することにした。

先日はクラウドサービスを紹介していただいてありがとうございました。おかげさまでアラートをExcelに起票する作業が自動化できて、仕事がだいぶ楽になりました。

photo

そうか。それはよかったね!

photo

でも・・・チケットが自動的に起票されるのはとても使い勝手がいいのですが、そのチケットがあまりにも大量に起票されるので、どれからどう手を付けていいか分からなくて……。

photo

あれ? あの機能は使ってないの?

photo

あの機能って……何ですか?

photo

自動フィルタリング機能だよ。IIJの統合運用管理サービスには、大量に起票されてしまうチケットをフィルタリングする機能があるんだ。

photo

え、そうだったんですか? 気付きませんでした……。

photo

このサービスの主要機能の1つだよ。アラートメールをチケットシステムに自動的に取り込むだけでなく、「対処すべきメール」と「そうでないメール」を自動判別してフィルタリングする仕組みが提供されているんだ。

photo

そうだったんですね、知りませんでした。早速試してみます!

photo

ついでにもう1つ言うと、クリティカルなアラートを受け取ったときは、管理者に自動的に電話をかける機能も付いてるよ。こっちも活用してみると、さらに管理が楽になるかもね。

photo

ああ、将来的にはそういうこともできればなあと思ってたんですよ! 何だか、僕ら現場が普段困っていることを、見事に見透かされているみたいですね。

photo

うちでも今、あのサービスを使っている部隊がいるんだけど、評判がいいから、ほかのシステムにも横展開しようとしているんだ。既存のシステムに一切手を入れずに導入できるから、とにかく手軽なんだよね。

photo

それは僕も思いましたね。運用管理ツールの導入って、とかく大掛かりなイメージがありましたから……。

photo

そうだね、その点、クラウド型のサービスはすぐ試せるし、もし効果が出なければやめればいいだけだから。ある意味、今までの運用管理ツールの常識を覆すようなサービスだよね。ところで、これからどうするの?

photo

はい、まずはIIJの統合運用管理サービスがカバーしている「アラートのフィルタリング」「チケット管理」「自動通知」の機能をもっと有効活用して、Zabbixをさらに使いこなせるようにしたいですね。

photo

うん。それも大事だけど、その先は?

photo

その先?

photo

そう。今やってる仕事を改善していくことはもちろん大事だけど、運用監視が効率化されたことで余った人手をどんな領域に割り振るかを考えるのも、上に立つ者の大事な仕事だからね。これからの運用監視タスクは、ツールをうまく使いこなすことでどんどん自動化 されていくだろうから、そこで浮いたリソースをどれだけ戦略的な領域に注ぎ込めるかで、その会社のIT力、ひいては会社全体の競争力が決まってくるからね。

photo

なるほど……やるべきことは山積みってことですね……。情シス部門としてどんなことをやっていくか考えてみますよ!

photo

Copyright © ITmedia, Inc. All Rights Reserved.


提供:株式会社インターネットイニシアティブ
アイティメディア営業企画/制作:ITmedia エンタープライズ編集部/掲載内容有効期限:2018年5月31日