現在のデータ分析ニーズに、リレーショナルデータベースと従来のクエリでは対応できない。現在進みつつある、人工知能やディープラーニング、コグニティブアナリティクスなどについて整理しよう。
前編(Computer Weekly日本語版 9月20日号掲載)では、従来のリレーショナルデータベースでは不向きな用途の増加と、それに代わるデータ管理システムの種類と特徴を解説した。後編では、普及が進んでいるデータ分析手法をまとめた。
本記事は、プレミアムコンテンツ「Computer Weekly日本語版 10月4日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。
なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。
人工知能(AI)は、業務の効率を改善し、既存のデータから新しい知見を得てそれを提供することを重視した、幅広いテクノロジーを網羅している。AIツールは、推論、知識、計画、学習、自然言語処理など多岐にわたるプロセスを自動化する。
「H2O.ai」のようなツールを使用すると、高速でスケーラビリティ(拡張性)を備えた、スマートな機械学習/AIアプリケーションを構築できる。別のAIツールである「SigOpt」は開発者向けで、実験を実行し、製品を改善するための試行錯誤を減らすことができる。マーケティングの分野であれば、「Conversica」の導入を検討している企業もあるだろう。自動化した電子メールに対する応答から見込み客を評価し、優先順位をつけるAIツールだ。
AIツールを既存のデータソースと統合するためにAIを導入する例は非常に多い。Accentureなどの大手インテグレーターから英国のGreymathsやドイツのColenetなど特定分野のスペシャリストに至るまで、主にシステムインテグレーションの専門企業がこうしたツールを構築している。
ほとんどの場合、AIプロセスではシステムのトレーニングや微調整に膨大な量のデータが必要であり、今なお開発段階にとどまっている。この開発を進めているのは、主に特定の業界だ。例えば莫大(ばくだい)な量のデータを扱い、大きな値を含む莫大な数のトランザクションの処理にミリ秒単位の応答を要求される金融業界や、医薬品開発に膨大な量のデータのモデリングと試行を要する製薬業界などが挙げられる。
最低限のAIレベルでは、手作業の中で何度も同じことを繰り返し実行しなければならなかった部分をプロセス自動化技術で置き換える。AIが機械学習を獲得すると、次のレベルに到達する。この場合、プログラムは観察結果と経験のデータを組み合わせて、モデルの構築を「学習」する。結果として得られたモデルは予測的、すなわち具体的な内容が分かりやすいもので、手近にあるデータからより多くの知識を得ることによって進化を続ける。
機械学習は、以前は人間でなければ扱えないとされていた複雑な問題に主に導入されている。ただし、その解決法を繰り返してそのまま利用できることはほとんどないため、問題解決のプロセスは非常に時間とコストがかかるものとなっている。
一方、プログラムにルールとユーザー体験を提供することを基本とするAIとは対照的に、機械学習は優れたパフォーマンスを発揮する明示的なアルゴリズムが利用できない演算タスクや、プログラムでは推論のルールしか提供できないタスクに採用される。その適用例といえるアプリケーションには、メールのフィルタリング、ネットワークへの侵入者や悪質な行為を行う部内者の検出、光学文字認識(OCR)、ランク付けの学習、コンピュータビジョンなどがある。
機械学習の商用応用例はMicrosoftで見られる。同社のDynamics CRMサービスを使えば、ユーザーは問題発生からの時間を追うことでパターンを特定し、解決までの時間を短縮し、パフォーマンスを向上させることができる。
Cisco Systemsは最近、暗号化されたトラフィックでマルウェアを検出する暗号化トラフィック分析(ETA)機能を発表した。ETAは、接続内の先頭のデータパケットだけでなく、パケットの長さと時間のシーケンスや、フロー内のパケットペイロード間のバイト分布も分析する。この検出プロセスは、機械学習モデルを拡張することによって、時間の経過とともに改善される。その際、機械学習モデルがリソースを独占したり、トラフィックを減速させたりすることはない。ETAを実装している最初の製品では、NetFlowデータを使用する。このデータは、Ciscoの「Catalyst 9000」とサービス統合型ルーター「4000シリーズ」をセキュリティアナリティクスの「Cisco Stealthwatch」と統合したシステムで得られるものだ。
深層学習(ディープラーニング)は、データ集約型の機械学習プロセスを目的とした、機械学習の具体的な方式の1つだ。トレーニングと推論の両方でGPUアクセラレーションに依存しているため、ハードウェアとソフトウェアのコンポーネントを緊密に統合する必要がある。
米国では、「NVIDIA DGX」とGPUアーキテクチャ「Volta」でGPUアクセラレーションを採用し、データセンター、デスクトップ、ノートPC、世界最速のスーパーコンピュータといったさまざまなフォームファクタで展開している。クラウド向けアプリケーションであるNVIDIAの「NCG」(New College Graduate)は、Amazon、Google、IBM、Microsoftのサービスで利用できる。
他方日本では、富士通が国立研究開発法人理化学研究所(理研)向けのディープラーニングシステムを手掛けることを発表した。このシステムは日本では最大規模のスーパーコンピュータに搭載するもので、AIテクノロジーに関する研究開発を加速させることを目指している。
対してソフトウェア面では、Google Brainチームが大きく貢献した。オープンソースの「TensorFlow」を使用し、機械学習とディープニューラルネットワークの研究を実施したのだ。このアーキテクチャは柔軟で、1つ以上のCPUまたはGPUで動作する。またデスクトップ、サーバ、モバイルデバイスの全てにおいて、同一のAPIが稼働する。このシステムは、IT業界に特化したディープラーニングの幅広い分野を支えるものとなっている。さらに法曹界では、新興企業のIntraspexionが、訴訟に発展しそうな事例を調査して未然に防止する早期警告システムのコアとして、TensorFlowを採用している。
コグニティブアナリティクスは演算処理とストレージの組み合わせに依存するが、膨大な量のデータから推論を組み立てる点で、人間の脳を模倣することを目指している。かつてのメインフレームやスーパーコンピュータの世界を思い起こさせる。
先頃、米国空軍とIBMは共同で、ある計画で協業することを発表した。複数のビッグデータフィード(音声、映像、テキスト)の分析を可能にする、世界初のコグニティブアナリティクス向けスーパーコンピュータを構築する計画だ。64個のニューロシナプティックプロセッサ「TrueNorth」をアレイにして稼働させるという。各コアは分散型ネットワークの一部であり、従来のCPUのようなクロックベースではなく、イベント駆動型で並列処理を行う。
処理能力は、6400万のニューロン(神経細胞)および160億のシナプス(神経細胞の接合部)に相当するという。人間の平均的な脳には、100億のニューロンと100兆のシナプスがあると推定されているところから考えると、コグニティブアナリティクスはまだ初期段階だ。
実業界では、金融企業がコグニティブアナリティクス導入の最前線だ。金融サービス企業のOpimasは、次のように予測している。投資部門の金融企業が2017年に、ロボットによるプロセスの自動化、機械学習、深層学習、コグニティブアナリティクスに費やす金額は15億ドルに達する。さらに2021年には、こうした分野の市場規模は75%増の28億ドルになる。
膨大なデータ管理の問題があるため、テクノロジーの進化は総体的にゆっくりと進んでいる。進化の推進力となるのは、この分野の実践に影響を及ぼす、多様なテクノロジー、プラットフォーム、機能だ。新しいデータストレージやデータ構造にアクセスするためにSQL(と、非構造化データ用のNoSQL)の使用を継続するのは、開発者への容易なアクセス、手頃な価格でのシステム導入、既存の社内インフラストラクチャとの統合を確保するには不可欠だ。NoSQLのスケーラビリティも、企業のデータ管理戦略を強化する能力と同じぐらい重要になる。
ビッグデータの「Hadoop」や演算の「Spark」といった、オープンソースの開発プロジェクトを採用すると、企業はデータ管理機能を拡張しながら、コストも削減できる。これらのプロジェクトの焦点が、テクノロジーから事業上の問題に移行することも考えられる。
構造化されていないビッグデータの巨大なリポジトリ、特にこれがデータレイクに置かれた場合は、一貫したフレームワークとデータガバナンスの必要性が増大する。企業は、データ管理の方式を大きく変更する前に、ビジネスルールと用語集を作成し、ガバナンスの責任分担を明確に特定する必要がある。
組織のCIOはブロックチェーンにどうアプローチすべきか。ブロックチェーンへの対応は本当に必要なのだろうか。6人のCIOに、ブロックチェーンへのアプローチ方法とそれぞれのビジネスへの潜在的影響について聞いた。
※本PDFは、TechTargetジャパン会員でなくても無料でダウンロードできます。
Copyright © ITmedia, Inc. All Rights Reserved.