“混在環境の複雑化”は解決できる!クラウド、オンプレ混在時代の「統合運用管理術」

膨大なシステムアラート、対応すべきはたった3%だった IIJの運用管理を激変させた“効率化のワザ”(2/2 ページ)

» 2017年06月06日 07時00分 公開
[富樫純一ITmedia]
前のページへ 1|2       

課題の根本的な原因は「大量のアラートにあり」

Photo IIJクラウド本部の土岐田尚也氏

 2つ目の課題として挙がった「障害対応の基本フロー」については、「我が社は整備している」と異を唱える人もいるかもしれない。しかしながら、そのほとんどは、「整備しているといえる状況ではない」と福原氏は指摘する。

 「基本フローが決まっていたとしても、実際にはハードウェアやソフトウェアが更新されていくにつれ、そのフローは陳腐化します。決められたフローが徐々に実態にそぐわなくなるわけです。その結果、障害発生から対応完了までのタイムラインを正しく計測できなくなり、『忙しいのは分かるけれども、どこにその原因があるのか分からない』という事態を招くことになります」(福原氏)

 この点についてはさらに、もう1つ課題がある。業務体制と役割が曖昧になることだ。

 「例えば、障害対応の1次受けはオペレーター、2次対応はエンジニア――という役割分担をしていても、業務がまたがることがあります。さらに他の担当者にエスカレーションする際には、タイムラグも発生します」(土岐田氏)

 こうした課題を抱えるようになるのは、システム運用の現場が「大量のアラートに忙殺されている」ことが根本的な原因だという。アラートが次から次へと上がってくるため、ナレッジベースに入力できない。入力できたとしても検証できない。障害対応の基本フローが整備できない。体制と役割がミスマッチして対応の遅れが発生する――。そんな負のスパイラルに陥るわけだ。

現場の負荷を抑制する不要なアラートの除去

 運用管理サービスを提供するIIJでも、同様の課題を常日頃から抱えていたという。課題を解決するには、まずは運用担当者の「忙しすぎる状態」を解決する必要があると考えた。そこで目をつけたのが、「システムから日々刻々と上がってくるアラート」だった。

 「ITILではイベントの中で必要なものだけをインシデント化するとしていますが、本当にそうなっているのか、まずは自社で確かめることにしました。監視ツールから上がってきたアラートを照合し、対応が不要なアラートを機械的にフィルタリングしたところ、約67%のアラートが不要なものでした。さらに残りの約33%を人手で照合したところ、33%のうちの30%が無視できるアラートでした。対応を要するアラートが、実は約3%しかなかったのです」(福原氏)

 さらに、実際にインシデント化して対応したアラートは0.3%、1次受けでは対応できずにエンジニアへエスカレーションしたアラートは0.03%という驚くべき数字だったという。

 「対処不要なアラートをあらかじめ取り除くことで、システム運用の現場の負荷を大幅に抑制できることは明らかです。しかもアラート全体のうち約97%についてはシステムや監視ツールに依存しないことも分かりました。そこでIIJでは、大量の機械処理を入れたアラートの分析システムを自社で独自開発しました。それが『アラート中継システム』です」(土岐田氏)

 IIJが開発したアラート中継システムは、年間1000万件以上のアラートを自動処理しているという同社の実績を活用し、膨大なアラートの中から対応が必要なアラートを分類するフィルタリング機能を提供しようというものだ。

 対応が必要なアラートのうち、原因を特定するのに時間を要するような複雑な障害は、過去のナレッジを活用して最適な復旧手段を提示する。このシステムはIIJが提供する「IIJ統合運用管理サービス」の基本機能に含まれているので、「システム監視の部分をIIJへアウトソーシングすることで運用負荷と時間を大幅に軽減できる」(土岐田氏)という。

 IIJ自身もアラート中継システムを自社システムの運用管理に適用している。その導入により「アラート数の約90%を削減し、オペレーションの負荷を5分の1まで軽減し、対応スピードが約2倍に向上するという効果が得られた」(福原氏)という。

 ちなみにIIJの統合運用管理サービスは、ハイブリッドクラウド、マルチクラウド環境の運用管理業務の負荷軽減に寄与するサービスであり、クラウドサービスごとに異なるポータルやサポート窓口を統一化する統合管理ポータル機能を備えている。複数のクラウドサービスから構成やリソース情報を自動取得するので、企業のIT部門ではクラウドサービスの違いを意識することなく、統合管理ポータルを使って一元的に運用管理できる。


 ハイブリッド環境における運用管理の課題は、もちろんアラート対応だけに限るものではないが、アラート対応の取捨選択を自動化・効率化するだけでも、現場の業務生産性は大きく改善するという。このIIJの取り組みは、運用負荷を軽減したいと考える企業のヒントになるはずだ。

前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ