特集
» 2007年08月02日 07時00分 公開

オペにラクさせ品質向上!シスマネ必携! 運用管理ルールブック

上手なIT運用管理のノウハウは、豊富な運用実績と的確な情報蓄積、見直しを繰り返してきたプロに聞くのが一番。今回はITアウトソーシング事業者のノウハウ集にある、オペレータに対する作業負担を減らすことで運用品質を向上するという考え方を紹介する。

[岡田靖,ITmedia]

このコンテンツは、オンライン・ムック「運用管理の過去・現在・未来」のコンテンツです。関連する記事はこちらでご覧になれます。


ルール1:余計な障害の切り分けをオペレータにさせない

 障害対応は、運用管理において特に重要な業務の1つだ。それなりの規模のシステムを運用しているなら、監視ツールを導入して正常に運用できているかを常時監視しているところも少なくないだろう。

 だが、数々のパラメータを監視していると、ちょっとしたトラブルでも無数のアラートが発生してしまいがちだ。1つのサーバに異常が発生してダウンしただけでも、そのサーバのCPU負荷、メモリ、OS、ミドルウェアやアプリケーション、ネットワークなど、それぞれのアラートが次々と監視コンソールに送られてくることになるはず。このままでは、監視コンソール上に無数のアラートが表示され、「実際には何が起きているのか」を迅速に見極めることが難しい。

 障害の見極めや切り分けに時間がかかれば、対応そのものの遅れに繋がり、結果としてサービスレベルの低下を招いてしまう。また、数々のアラートが表示される中で迅速な対応を迫られたオペレータが、焦ったり慌てたりして判断を間違えてしまう危険もある。

 このような課題に対し、管理者がとるべき対策は、監視コンソール上に表示されるアラートを適切に絞り込み、障害状況を特定できるようにしておくことだ。主要なトラブルに対しては発生するアラートも想定できるはずだから、その条件をあらかじめコンソールに登録しておくべきなのだ。同時に、想定できるトラブルであれば対処方法のマニュアル化も可能となるのだから、これもコンソールに登録しておくことが望ましい。

 前回の「自動化」とも通じる部分だが、このような取り組みは単なる省力化、効率化だけを目指すものではない。人間の判断や作業には、ミスが入り込む危険が伴うものだ。特に迅速かつ的確な判断や対処が求められる場面においては、自動化による作業品質向上、信頼性向上の効果が大きく発揮されるのである。

 もちろん、運用時には想定外のトラブルも発生しうる。そういったケースに対しては、自動化も効果を発揮できないことだろう。しかし、将来のための糧とすることはできる。事後にしっかり原因究明を行い、次に発生した際には迅速に対処できるよう備えておくことが肝心だ。運用管理のプロセスは、頻繁に見直しを加えていけば精度を向上できるのである。

ルール2:ジョブ正常終了でアラートを鳴らさない

 バッチ処理などのジョブが正常終了した際に、監視コンソール上でアラートとして扱うべきでない、というノウハウだ。

 この扱いに関しては、運用者によって異なる意見もあるだろう。しかし、ある程度以上の規模のデータセンターであればバッチジョブなどは無数に走っているものなのだから、いちいちアラート扱いをしていては本当のアラートが埋もれてしまいかねない。オペレータに余分な情報を与えて混乱させぬよう、目に触れない形で処理することが望ましい。もちろん、バッチ正常終了の記録も大切だから、基本的にはアラートより低い段階のメッセージとして処理するとしても、そのイベント自体の情報は適切に取得し、記録しておくべきことは言うまでもない。

 なお、これら運用監視に関わるポリシーは、明確な基準を設けて標準化しておくべきだし、新しいシステムの立ち上げに際しては運用設計段階から標準を適用しておくべきである。どんなに内容が良いポリシーであっても、一部のシステムだけに適用されているのでは大きな効果も期待できないし、むしろ各システムで異なる手法や手順が用いられていれば運用現場の混乱を招き、悪影響が懸念される。

ルール3:テスト時のアラートは慎重に

 ときには、本番環境を使って簡単なテストを行う必要もあることだろう。このような場合には、もちろんテストの内容にもよるが、しばしばアラートが発生し、オペレータの混乱を招く恐れがある。そして、他のシステムのアラートを見落とす原因になりかねない。

 本番環境を使わねばできないようなテスト項目を、完全に排除するのは非常に困難だ。このような場合には、運用現場の混乱を避けるため、監視コンソールに適切な設定を行い、テストアラートを本番アラートと区別して処理できるようにしておくべきだ。なお、このルールに関しても、現場での標準化が望まれるのは言うまでもない。(取材協力:野村総合研究所)

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ