メディア

「教育×ビッグデータ」から始まった機械学習や深層学習とは？：ビッグデータ利活用と問題解決のいま（2/3 ページ）

» 2016年03月03日 08時00分公開

ビッグデータにおける機械学習の役割とは？

　機械学習や深層学習は、教育支援分野から発達し、ソーシャルメディア、製造業など、さまざまな分野で応用されようとしている。ここでは、ビッグデータにおける深層学習、機械学習の位置付けや課題点を整理する。

　そもそも機械学習は、コンピュータが自動的にパターンを学習し、データから推論を行う能力である。この技術によって、大規模かつ多次元のデータから、自動的かつスケーラブルに、さまざまなインサイトを収集できるようになった。図2は「クラウドセキュリティアライアンス（CSA）」のビッグデータワーキンググループ（BDWG）がまとめた「ビッグデータの分類」（2014年9月）より、機械学習アルゴリズムの分類を示している（関連PDF）。

図2：機械学習アルゴリズムの分類出典：Cloud Security Alliance 「Big Data Taxonomy」 (2014年9月)

　機械学習アルゴリズムとしては、人手によって入力データを与えられた目標値あるいはクラスラベルにマッピングする「教師あり学習（Supervised）」と、人手を介さず自動的に入力データの隠された構造を学習する「教師なし学習（Unsupervised）」がある。前者の代表例が、「回帰（Regression）」や「分類（Classification）」であり、後者の代表例が「クラスタリング（Clustering）」や「次元削減（Dimensionality reduction）」である。ニューラルネットワークは「分類」に含まれる。

　さらに、少量のラベリングされたデータを使用して、大規模のラベリングされていないデータセットに融合させ、適切な学習アルゴリズムに近づける「半教師あり学習（Semi-supervised）」や、一定期間に最大の報酬をもたらす行動を取るように、観察と行動の間のマッピング関数を学習して最適化を図る「強化学習（Re-enforcement）」がある。

　そして、ビッグデータの場合、これらの機械学習アルゴリズムを、時系列データ、ストリーミングデータ、シーケンスデータ、グラフデータ、空間データ、マルチメディアデータなど、さまざまな種類のデータに適用させることが必要となる。元々教育分野から生まれた機械学習とデータのマッピングに関するユースケースが、さまざまな業種・業界に応用されて広がりつつある。

深層学習のビッグデータ適用に向けたユースケース開発が課題

　機械学習アルゴリズムをビッグデータに適用拡大させる場合、対象となるビッグデータの相互運用性が確保されていることが前提条件となる。本連載の第21回で取り上げた、国立標準研究所（NIST）の「ビッグデータ相互運用性フレームワーク・バージョン1.0」の最終版（2015年9月）では、「NIST SP 1500-3 -- Volume 3：Use Case & Requirements」に、深層学習のビッグデータ適用に関するユースケースが掲載されている。

　このユースケースを提供したのは、当時スタンフォード大学の研究者だったアダム・コーツ氏である。想定されているプレイヤーは、自動運転車の運転、音声認識、自然言語処理のような最先端のコンピュータービジョン開発を支援するために、大容量のデータと複雑な予測業務に取組む、機械学習の研究者や専門家だ。

　彼らの目標は、大規模（1テラバイト以上）の集積データ（画像、動画、音声、テキストなど）から、深層ニューラルネットワークのトレーニングを行うために、深層学習アルゴリズムで処理することが可能なデータセットの規模を拡大することである。ユースケースでは、以下のようなシステム環境を利用している。


現在のシステム環境	概要
コンピュータ（システム）	高速に相互接続するGPUクラスタ（例：インフィニバンド40gE）
ストレージ	100TB Lustreファイルシステム
ネットワーク	HPCクラスタ内のインフィニバンド、外部インフラストラクチャ向け1GbE（例：Web、Lustre）
ソフトウェア	Stanford CS. C++/Pythonソースで開発された内蔵GPUカーネルとMPIベースの通信

ユースケースでは？

シェアリングエコノミー型が牽引するオープンガバメント
2期8年目を迎えようとする米国オバマ政権が推進してきたオープンガバメント／オープンデータ推進策は、仕上げの段階に入ろうとしている。従来の電子政府戦略からどのように進化したのだろうか。
GEにみるIoTとビッグデータ連携でのOSS利用と国際協調
モノのインターネット（IoT）の普及拡大とともに、企業の産業システムがオープンソースソフトウェアとデータを連携する場面が増えてくる。ビッグデータ／IoT連携を推進するグローバル企業は、どのように対応しているのだろうか。
モバイルヘルスと個人情報保護の両立の最前線とは
「EU個人データ保護規則」制定化への動きは、欧州各国のモバイルヘルス（携帯機器活用医療）推進施策にも大きく影響する。グローバルな医薬品・医療機器企業の欧州拠点が集中するアイルランドではどのようなことが起きているのだろうか。
多階層化が進む健康医療分野のICTとセキュリティ
金融業界と同じく、健康医療分野でもビッグデータ活用などを通じたイノベーションが急速に進みつつある。一方でセキュリティやリスクに対する懸念も高まっているが、どのような取り組みが行われているのだろうか。