膨大なシステムアラート、対応すべきはたった3%だった IIJの運用管理を激変させた“効率化のワザ”(2/2 ページ)
オンプレミスからクラウドサービスまでハイブリッドシステム環境の運用を担当するIT部門の現場。複雑化する一方の運用管理をラクにする方法はあるのか。
課題の根本的な原因は「大量のアラートにあり」
2つ目の課題として挙がった「障害対応の基本フロー」については、「我が社は整備している」と異を唱える人もいるかもしれない。しかしながら、そのほとんどは、「整備しているといえる状況ではない」と福原氏は指摘する。
「基本フローが決まっていたとしても、実際にはハードウェアやソフトウェアが更新されていくにつれ、そのフローは陳腐化します。決められたフローが徐々に実態にそぐわなくなるわけです。その結果、障害発生から対応完了までのタイムラインを正しく計測できなくなり、『忙しいのは分かるけれども、どこにその原因があるのか分からない』という事態を招くことになります」(福原氏)
この点についてはさらに、もう1つ課題がある。業務体制と役割が曖昧になることだ。
「例えば、障害対応の1次受けはオペレーター、2次対応はエンジニア――という役割分担をしていても、業務がまたがることがあります。さらに他の担当者にエスカレーションする際には、タイムラグも発生します」(土岐田氏)
こうした課題を抱えるようになるのは、システム運用の現場が「大量のアラートに忙殺されている」ことが根本的な原因だという。アラートが次から次へと上がってくるため、ナレッジベースに入力できない。入力できたとしても検証できない。障害対応の基本フローが整備できない。体制と役割がミスマッチして対応の遅れが発生する――。そんな負のスパイラルに陥るわけだ。
現場の負荷を抑制する不要なアラートの除去
運用管理サービスを提供するIIJでも、同様の課題を常日頃から抱えていたという。課題を解決するには、まずは運用担当者の「忙しすぎる状態」を解決する必要があると考えた。そこで目をつけたのが、「システムから日々刻々と上がってくるアラート」だった。
「ITILではイベントの中で必要なものだけをインシデント化するとしていますが、本当にそうなっているのか、まずは自社で確かめることにしました。監視ツールから上がってきたアラートを照合し、対応が不要なアラートを機械的にフィルタリングしたところ、約67%のアラートが不要なものでした。さらに残りの約33%を人手で照合したところ、33%のうちの30%が無視できるアラートでした。対応を要するアラートが、実は約3%しかなかったのです」(福原氏)
さらに、実際にインシデント化して対応したアラートは0.3%、1次受けでは対応できずにエンジニアへエスカレーションしたアラートは0.03%という驚くべき数字だったという。
「対処不要なアラートをあらかじめ取り除くことで、システム運用の現場の負荷を大幅に抑制できることは明らかです。しかもアラート全体のうち約97%についてはシステムや監視ツールに依存しないことも分かりました。そこでIIJでは、大量の機械処理を入れたアラートの分析システムを自社で独自開発しました。それが『アラート中継システム』です」(土岐田氏)
IIJが開発したアラート中継システムは、年間1000万件以上のアラートを自動処理しているという同社の実績を活用し、膨大なアラートの中から対応が必要なアラートを分類するフィルタリング機能を提供しようというものだ。
対応が必要なアラートのうち、原因を特定するのに時間を要するような複雑な障害は、過去のナレッジを活用して最適な復旧手段を提示する。このシステムはIIJが提供する「IIJ統合運用管理サービス」の基本機能に含まれているので、「システム監視の部分をIIJへアウトソーシングすることで運用負荷と時間を大幅に軽減できる」(土岐田氏)という。
IIJ自身もアラート中継システムを自社システムの運用管理に適用している。その導入により「アラート数の約90%を削減し、オペレーションの負荷を5分の1まで軽減し、対応スピードが約2倍に向上するという効果が得られた」(福原氏)という。
ちなみにIIJの統合運用管理サービスは、ハイブリッドクラウド、マルチクラウド環境の運用管理業務の負荷軽減に寄与するサービスであり、クラウドサービスごとに異なるポータルやサポート窓口を統一化する統合管理ポータル機能を備えている。複数のクラウドサービスから構成やリソース情報を自動取得するので、企業のIT部門ではクラウドサービスの違いを意識することなく、統合管理ポータルを使って一元的に運用管理できる。
ハイブリッド環境における運用管理の課題は、もちろんアラート対応だけに限るものではないが、アラート対応の取捨選択を自動化・効率化するだけでも、現場の業務生産性は大きく改善するという。このIIJの取り組みは、運用負荷を軽減したいと考える企業のヒントになるはずだ。
関連記事
- クラウドで複雑化する運用管理、もう限界 属人化からの脱却法とは
マルチクラウド時代の運用管理とはどうあるべきなのか。IIJがその課題を示し、最適解を目指したソリューションを発表した。果たして、企業にとってどこが問題なのか。 - 今こそ見直しの時 ハイブリッド、マルチクラウド時代の運用管理術
クラウド導入で運用管理の手間を軽減できるはずだったのに、かえって作業が増えてしまった――。オンプレと複数クラウドの混在環境が当たり前になりつつある今、複雑化する一方の運用管理をどうやって整理すればいいのか。IDC Japanの入谷氏に聞いた。 - クラウド時代の統合運用管理を成功に導く5つのポイント
企業内にオンプレミスとクラウドの混在環境が増える中、IT部門はどんな方法で運用管理を効率化させていけばいいのか。IDC Japan アナリストの入谷光浩氏によると、5つのポイントがあるという。 - 複雑化するハイブリッドクラウド時代の運用管理、解決策は
企業のIT基盤としてハイブリッドクラウドが注目を集めているが、統合運用管理の複雑化が課題となっている。この問題に解決策はあるのか。 - 第14回 企業規模でみるシステム運用管理のアウトソーシング方法
ITシステムをMSPへアウトソースする際に、IT部門が考慮しなければならない点はたくさんあります。今回は自社の規模という視点からMSPに対するアプローチの方法を紹介します。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.