AI技術と自動化でデータセンターの運用はここまで「自律化」する9年の実績を持つ次世代データセンター運用技術

IoTとAIを活用したITインフラの予防保全と運用自動化に10年近く取り組んでいるエンジニアに、これからのデータセンターの話を聞いた。

2018年04月20日 10時00分 公開
[ITmedia]

 機器の故障や経年劣化によるエラーなど、案外とITインフラを支えるハードウェアは繊細な理由で問題を生じるケースが多い。業務を止めない運用が求められるITインフラにおいて、計画停止以外の、予期せぬ停止は最も避けたい問題だ。この他にも、特定の極めてまれな条件下でのみ発生するような問題や、特定の部品に特徴的な問題などもある。製造ロットごとのごくわずかな個体差が影響するケースも少なくない。

 こうした情報は、ベテランITインフラ運用エンジニアの間ではある程度知られているものもあるが、ごくまれな条件で生じる問題の場合にはノウハウも流通しない。結果として、サポートへの問い合わせやログの提供など、原因究明と対処に長い時間を割くことになる。復旧までの時間が長引き、業務を止めるという意味で、事業部門への影響も多大だ。

 この問題を防ぐには予防措置をとるしかない。計画的に対処することで計画外の問題を排除するのだ。このとき、自社とベンダーの間で未知の問題にどこまで即応できる体制があるかが非常に重要なファクターとなる。この点に着目したサービスを展開し、99.9999%というメインフレーム並みの高い可用性を達成するオンプレミスシステムがある。エンタープライズ向けハイエンドシステムにも対応を始めた同システムの開発者を取材した。

IoTとAIで可用性99.9999%、平均47分で障害対応を実現するサービス

 「HPE Nimble Storage(以下、Nimble)」は、もともとIoTやビッグデータ分析にいち早く注目してきたスタートアップ発のストレージ製品で、国内大手電機メーカーが採用するなど、日本での実績も多い。2017年にヒューレット・パッカード・エンタープライズ(HPE)に統合されたNimbleが、従来ユーザーに提供してきた価値は2つに大別できるだろう。

 1つは、可用性と信頼性の高さだ。ユーザーのデータセンターに設置された機器からパフォーマンス情報や環境情報などを5分おきに自社データセンターに収集、予防保全に役立てることで可用性を99.9999%にまで高めている。これは年間の停止時間に換算すると30秒ほどであり、ミッションクリティカルシステムで求められる極めて高い可用性を実現している。

 もう1つは、システム運用とサポートの変革だ。従来、サポートは障害が発生してから行われてきた。ユーザーが問題に気付き、問い合わせをしてはじめて対応が始まる。このため、障害対応が1日で済むことはまれで、場合によっては数週間から数カ月かかることもあった。Nimbleは障害発生前に予防保全の視点からメンテナンスを提案する。詳細なログデータを常に収集しているため、万一障害が発生しても対応完了までにかかる時間はわずか47分(平均)だ。

 この2つの特徴を支えるサービスが、SaaS型のIoTを生かしたモニタリングとAIを活用した運用支援データ分析サービス「HPE InfoSight(以下、InfoSight)」である。

 InfoSight開発を指揮するロッド・バグ(Rod Bagg)氏(HPE Analytics & Customer Support担当VP)は「Nimble製品だけでなく、HPE 3PAR StoreServをはじめ、HPEのさまざまなデータセンターソリューションで予防保全メンテナンスと新しいサポート体験を提供する計画がある」と説明する。

InfoSightの概要と収集データの例 InfoSightの概要と収集データの例《クリックで拡大》

InfoSightのコアを成すPEAKチーム

 2009年からInfoSightの開発を手掛けてきたバグ氏は、「伝統的なサポートは、ユーザーが障害を連絡するまでのレベル1対応、ベンダーが障害の切り分けと特定を行うレベル2対応、実際に障害に対処するレベル3対応に分けられる。InfoSightは、このうちレベル1〜2対応を自動化する取り組みだ。本当に必要なユーザーがすぐにレベル3対応を受けられるようになる」と開発の意図を説明する。

 レベル3では、コールセンターのオペレーターやフィールドエンジニアではなく、データアナリストやデータサイエンティストが対応を担う。InfoSightによって障害内容を把握できるため、ユーザー側からすると障害ログの収集や送信、問題切り分けを行う手間を掛けずに問題解決に進める。

 「InfoSightは多様なログを基にした予防保全に取り組むため、レベル1〜2相当の問題は自動解決する。自動解決できる問題が増えることで、サポート対応件数は年率20%で減っている状況だ。リソースをレベル3対応人員に振り向けることで素早い復旧が可能になっている」(バグ氏)

 この取り組みを推進するのがPEAKチームだ。「Performance(システム性能把握)」「Escalation(作業のエスカレーション)」「Analytics(障害の特定と分析)」「Knowledge(情報の共有)」の頭文字を取った組織で、現在では、ストレージだけではなくネットワーク、ファイルシステム、パフォーマンスなど、機能ごとに特化した14人の専門家で構成されている。

 「InfoSightを運用して見えてきたのは、システムトラブルのうちストレージが問題であることは実はそう多くないこと。システム全体の安定した運用自動化することを目指すならばストレージ以外の問題も予測すべきだ」(バグ氏)

ロッド・バグ氏 ロッド・バグ氏

3PARのための専任チーム発足、専用ポータルからVMware環境の詳細を可視化

 InfoSightのカスタマーサポートの仕組みは「HPE 3PAR」をはじめとするHPE製品全般に適用されはじめている。既に3PAR専任のPEAKチームを新設。3PARが2002年から収集してきた稼働状況のビッグデータなどをデータアナリストやデータサイエンティストが分析する一方、レベル1〜2対応からレベル3対応への移行を進めている。

 その最初の成果として提供しているのが、InfoSightの機能の1つであり仮想マシンの状況を可視化できる「VMVision」の3PAR対応だ。VMVisionは、「VMware vCenter Server」が取得するさまざまな情報をグラフィカルに表示する機能。3PARユーザーであれば、既存のカスタマーサポートIDを使ってポータルにログインし、自社のストレージ環境の稼働状況の詳細を把握ができるようになった。

 また、「VMVision」が機能強化され、可視化できる対象がストレージだけでなく、サーバやネットワークにまで広がった。ユーザーはVMVisionを使って、その仮想マシンが稼働するサーバ、ネットワーク、ストレージをシングルペインで見ることができる。

 バグ氏は、VMVisionから取り組みを開始した理由について「障害はストレージだけが原因となって起こるわけではない。3PARユーザーの中には数十台のアレイを世界中に分散して保有しているケースも多い。そのため、ビッグデータ分析で得られた知見を使って、企業のインフラ全体を可視化することが重要だ」と説明する。

 Nimbleが提供していた機能を含め、さまざまな機能強化が施される予定だ。さらに今後は、AIと機械学習を活用して、予防保全とカスタマーサポートの在り方をさらに変革していくという。そのカギを握る技術が2017年11月にリリースされた「AI レコメンデーションエンジン」だ。

仮想マシンの中のアプリケーション稼働状況なども分析できる 仮想マシンの中のアプリケーション稼働状況なども分析できる《クリックで拡大》

InfoSightとAI レコメンデーションエンジンが「自律型データセンター」の基盤技術に

 「今までもAIや機械学習を使ってベテランの運用者ですら解決が難しい問題を分析してきた。新たに開発したAI レコメンデーションエンジンは、より高い精度で障害の予兆を検知、さらに『その障害にどんな対応をとればよいか』をIT担当者に自動レコメンドする仕組みだ」(バグ氏)

 HPEでは、将来的なITインフラ運用のビジョンとして「自律型データセンター」を掲げている。サーバ、ネットワーク、ストレージなどで構成されるデータセンターそれ自身が「自己管理(Self-Managing)」「自己修復(Self-Healing)」「自己最適化(Self-Optimizing)」していくという次世代データセンターの姿だ。この自律型データセンターを実現するための中核技術に位置付けられているのがInfoSightであり、AI レコメンデーションエンジンなのだ。

 「AI レコメンデーションエンジンは今のところ、障害の対策をレコメンドするところまで。例えば、パフォーマンスを改善するとなれば担当者が提案された対策を実装する作業が必要だ。今後は、AI レコメンデーションエンジンのさらなる改良に取り組み、将来的には、パフォーマンス改善が必要な場合に、対策を提案するだけでなく、自動実行できるようにする予定だ」(バグ氏)

 InfoSightの登場でユーザーは障害を発見するという作業が不要になった。今後は、AI レコメンデーションエンジンによって、障害への具体的な対策を検討するような作業も不要になる。さらに将来的には、障害対応そのものが不要になる可能性があるというわけだ。

 バグ氏は「次世代データセンターの理想を実現する道のりは長い。しかし、InfoSightのアプローチを進めていけば不可能ではないと確信している」と話す。そう遠くない将来、カスタマーサポートの第二の革命が起こることを期待したい。

AI レコメンデーションエンジン AI レコメンデーションエンジン《クリックで拡大》


提供:日本ヒューレット・パッカード株式会社
アイティメディア営業企画/制作:TechTargetジャパン編集部/掲載内容有効期限:2018年10月31日