従来型のシステム監視だけでは不十分? Webサービス障害の根本原因は別にあり!

EC事業者をはじめWebサービスを提供する企業の多くは、サービスのパフォーマンスを管理するために、ハードウェアやOSといったシステムコンポーネントごとの監視を行っている。ただし、それだけでは不十分だということが明らかになってきた。そこでこのシステム課題に対してCTCテクノロジーが提供を開始した新ソリューションが「Avail-ProE(アベイルプロイー)」だ。

» 2016年11月28日 10時00分 公開
[PR/ITmedia]
PR

なぜWebサービスの品質低下を検知できなかったのか

 スマートデバイスが爆発的に普及し、いつどこにいてもWebサイトに自在にアクセスできることが当たり前になった今日、企業のビジネスにおけるWebサービスの重要性はかつてとは比べ物にならないほど高くなった。そのサービス品質やパフォーマンスに向けられるユーザーの目は年々厳しくなり、ちょっとしたパフォーマンス劣化がきっかけで、2度とそのサービスを利用しなくなってしまうことも珍しくない。前回の記事では、ある企業の事例を基に、その経営リスクの大きさを説明した(関連記事:なぜあのサービスは一向にパフォーマンス改善されないのか?)。

 こうした事態を防ぐために、多くの企業では自社システムが正常に稼働しているかどうかをチェックしようと、IT機器の監視を厳密に行っている。機器やOSに異常が発生した場合には、それをいち早く検知して対応できる体制を整えている。にもかかわらず、実際にはWebサービスの遅延やダウンを防げずに、結果的に自社のブランド力を大幅に低下させてしまう企業が後を絶たない。

 「ハードウェアやOSといったシステムコンポーネントの監視だけでは、必ずしも『ユーザーから見たサービス品質の低下』を検知できるとは限りません」。こう語るのは、CTCテクノロジー Avail企画開発部 Avail-Pro技術推進課の細谷真氏。たとえハードウェア機器やOSが一見正常に稼働していても、ユーザーに提供するサービス品質がいつの間にか低下していることも多いという。

CTCテクノロジー Avail企画開発部 Avail-Pro技術推進課の細谷真氏 CTCテクノロジー Avail企画開発部 Avail-Pro技術推進課の細谷真氏

 この兆候をいち早く検知するためには、従来のコンポーネント監視だけではなく「NPM(ネットワークパフォーマンス管理)」および「APM(アプリケーションパフォーマンス管理)」の取り組みが欠かせないという。

 「コンポーネントの稼働状況だけでなく、その中を流れているデータがきちんとスムーズに処理されているかまでを可視化しないと、エンドユーザーが実際に体感するWebサイトのパフォーマンスを評価することはできません。これをネットワークの観点で行うのがNPM、アプリケーションの一連の処理状況(トランザクション)に着目して行うのがAPMです」(細谷氏)

 そこでCTCテクノロジーでは、従来のシステム監視サービスのあり方を根本から見直し、システムコンポーネントの監視だけにとどまらず、NPMやAPMなどさまざまな施策を組み合わせることで、サービスパフォーマンスの低下をいち早く可視化できるだけではなく、その予兆まで検知できるソリューションを実現した。それが、2016年10月に提供を開始したシステム安定稼働支援サービス「Avail-ProE(アベイルプロイー)」だ。

 Avail-ProEには、これまでのシステム監視サービスと同じく、コンポーネント監視の機能も含まれている。ハードウェア障害のイベントを24時間・365日監視し、障害を検知すると、即座にCTCテクノロジーの専用システムでインシデントを自動生成して同社のエンジニアチームにエスカレーションする。また、調査対象となる機器から原因解析に必要な一次ログの収集までもが自動化されている。ユーザーはほとんど手間を掛ける必要がなく、CTCテクノロジーがイベント監視、インシデント管理のタスクを代行する。

NPMによってネットワークトラフィックの異常を検出する

 では、NPMとは具体的にどのようなものだろうか。

 NPMは、ネットワーク上を流れるパケットデータをすべてキャプチャした上で、そのトラフィック状況のモニタリングを常時行い、データを蓄積する。そして、もし何らかの異常値を検出した際には、そのデータから迅速に異常原因の分析を可能とする機能だ。通常、分析のためには発生事象を再現させる必要があるが、それも不要となる。

 また、Avail-ProEでは、ハードウェア異常を検出したケースと同様にNPMの機能で異常値を検知した場合にも、自動的にインシデント生成や同社のエンジニアチームへのエスカレーションを行う。

 異常やその予兆を検出するためには、「この値を超えたら異常と判断する」というしきい値をあらかじめ設定しておく必要があるが、実はこのしきい値を適切に設定することが非常に難しい。低すぎる値に設定すれば誤検知が多発し、逆に高すぎる値に設定してしまえば異常発生を見過ごしてしまう。しかも、適切なしきい値はケースバイケースで異なることもあり得る。

 Avail-ProEでは、顧客のシステムにおけるネットワークトラフィックを一定期間計測し、その傾向を評価、分析した上で適切なしきい値を設定するところまでもCTCテクノロジーの専任エンジニアチームが代行する。

APMによってアプリケーショントランザクションを詳細に解析

 実際にWebサイトのパフォーマンス劣化が発生した際や、その兆候を検出する際には、まず前述のNPMを用いて問題範囲の絞り込みを行い、サーバやハードウェア、ソフトウェア、ネットワーク機器といった単位で根本原因を切り分けていく。その結果、原因がソフトウェアにあることが判明した場合には、さらなる切り分け作業が必要になる。

 一口にソフトウェアと言っても、その中身はバックエンドのデータベースやアプリケーションから、フロントエンドのWebアプリケーション、そしてユーザーサイドのブラウザに至るまで、多くの階層に渡って異なるソフトウェアが複雑に絡み合っている。これらの関係性を正確に把握し、かつどの部分で問題が発生しているのかをピンポイントで探り当てるには、高度なスキルと多くの時間を要するため、どうしても問題解決が後追いになりがちになる。

 そこでAPMの出番である。Avail-ProEが提供するAPM機能では、アプリケーションサーバに専用エージェントをインストールすることですべてのアプリケーションで処理されるデータを収集・蓄積し、各アプリケーションの動作を詳細に解析する。これを基に、各ソフトウェア間の関連を「アプリケーションマップ」として図示したり、エンドユーザーの体感レベルに限りなく近い「エンドツーエンド」の体感時間(エンドユーザーエクスペリエンス)を可視化したり、あるいは問題の発生源をJavaプログラムのコードやSQL文のレベルで提示してくれる。

 まずは先ほどのNPMで問題発生の予兆を検知し、そして問題が顕在化する前にAPMを使って根本原因を突き止めて対処する。これにより、エンドユーザーに提供するサービスに問題が発生する前にその芽を摘み、自社の顧客をつなぎとめておくことができるわけだ。

NPMとAPM。左は元のシステム構成図(出典:CTCテクノロジー、リバーベッドテクノロジー) NPMとAPM。左は元のシステム構成図(出典:CTCテクノロジー、リバーベッドテクノロジー)

 そしてAvail-ProEの最大の特徴は、こうした一連の仕組みをすべて揃えている点にあるという。

 「APMは既に米国では多くの企業で採用されており、日本でも少しずつ認知度が高まりつつあります。事実、APM製品を提供するベンダーは増えてきているのですが、その多くはAPMの機能は提供するものの、NPMは提供していません。その点Avail-ProEはAPMとNPMの両方を備えており、ネットワークとアプリケーションの両方の切り口から問題の可視化が行えるようになっています。さらにコンポーネント監視の機能も提供するため、Avail-ProEという単一のサービスプラットフォームですべてのシステムのあらゆる側面をカバーし、トラブルの発生を見落とさない運用監視を可能にします」(細谷氏)

レポーティングサービスも用意 専任チームによる万全の体制で支援

 サービスの機能だけではなく、それを支える体制の面でも、Avail-ProEは万全を期しているという。CTCテクノロジーでは、サービス提供のために専任のエンジニアチームを組織して対応に当たっている。Avail-ProEを利用するには、ユーザーのシステム内に監視サーバを導入してCTCテクノロジーのデータセンターと専用線接続を設定する必要があるが、これも個別ユーザーに綿密にヒアリングを行った上で導入作業を行う。

 また運用を開始した後もユーザーのシステム構成をしっかり把握した専任エンジニアチームが24時間・365日体制でサービスを提供し、何らかのインシデントが発生した際には即座に対応を実施する。また、先ほど紹介した「しきい値のチューニング」のような継続的な取り組みも日々のモニタリングから得られたデータを基に専任チームが行い、より適切なシステム運用の提案を行っていく。

 さらには、Avail-ProEによる日々のシステム監視状況は、ユーザー自身も直接参照できる。システムパフォーマンスのモニタリング結果をリアルタイムで表示するポータル画面が用意されており、ユーザーはこれを通して自社システムの稼働状況を逐一チェックできるようになっている。Avail-ProEの大きな特徴である「エンドユーザーが体感しているアプリケーションの応答時間」をリアルタイムで確認できるため、今まさに自社のWebサイトやWebアプリケーションにアクセスしているユーザーの体感スピードを把握できるようになる。

Avail-ProEのサービス提供イメージ(出典:CTCテクノロジー) Avail-ProEのサービス提供イメージ(出典:CTCテクノロジー)

 これとは別に、異常の発生に伴い自動的に生成されたインシデントの調査状況や進ちょくを確認できるポータル画面も用意する。またインシデントの対応内容は月に1回ユーザーに提示される「月次実績レポート」でも報告される。このレポートではその月のパフォーマンス実績や、メトリックしきい値の状況なども記載されている。

 加えて、四半期に一度、「サービス可用性レポート」という報告書もユーザーに提供される。これはもう少し中長期的な視点に立ち、これまで観測された障害イベントやネットワークトラフィック、アプリケーションの処理状況などの傾向からシステムボトルネックやエンドユーザーエクスペリエンスを分析・評価した上で、今後のシステム改善の提案までを盛り込んだものだ。

 「ECサイトを運営する企業はもちろんですが、Webを通じて社外とやり取りするあらゆる企業や組織にとって、Avail-ProEは安定したサービス品質の提供に大きく寄与します。今後は自動化や分析などの面でさらなる機能強化を図り、より多くのお客さまのビジネスの発展に貢献していきたいと考えています」(細谷氏)

 こうしたプロアクティブな対応を行っていくことで、顧客のWebサイトの問題発生を未然に回避し、ひいてはビジネス機会の損失やブランドの毀損を防ぐ。Avail-ProEが提案するのは、そんな新しい次元のシステム運用監視のあり方なのだ。

Amazonギフト券があたる! アンケート実施中

ITmedia ビジネスオンラインでは、CTCテクノロジー株式会社と共同で「システム運用・監視サービス」に関するアンケートを実施中です。

アンケートにお答え頂いた方から、抽選で3名様にAmazonギフト券5,000円分を差し上げます。詳細はこちらから

Copyright © ITmedia, Inc. All Rights Reserved.


提供:CTCテクノロジー株式会社
アイティメディア営業企画/制作:ITmedia ビジネスオンライン編集部/掲載内容有効期限:2016年12月28日

Amazonギフト券が当たる! アンケート実施中

本記事に関連して「システム運用・監視サービス」についてのアンケートを実施中。回答者から抽選で3名様にAmazonギフト券5,000円分が当たります。ぜひご回答ください。