そしてユースケースでは、ビッグデータの観点(容量、速度、種類、変動性)からみた深層学習の特徴を以下のように整理している。
ビッグデータの特徴 | 概要 |
---|---|
データソース(分散/集中) | 単一の大規模トレーニング用データセット付き中央集中型ファイルシステム。データセットは新しいトレーニング事例が利用可能になる際にアップデートされることがある。 |
容量(Volume) | 現在のデータセットは通常1〜10テラバイト。計算処理能力を強化してより大きなモデルの表現力を利用するために、100テラバイト以上のデータセットが必要となることがある。自動運転車をトレーニングする場合、10億の画像を利用することがある。 |
速度(Velocity) | リアルタイム処理よりも高速であることが要求される。現在のコンピュータビジョンアプリケーションには、適切なトレーニング時間を確保するために、1秒あたり数百の画像フレームを処理することが含まれる。要求が多いアプリケーション(例:自律運転)のために、1秒あたり数千の高解像度画像(6メガピクセル以上)の処理を実行する必要がある。 |
種類(Variety) | 個々のアプリケーションにさまざまな種類のデータが含まれる可能性がある。現在の研究には異なるタスク(例:テキストのタグ付け、チャンキング、解析を行うための学習、画像や音声の組合せから読唇するための学習)から積極的に学習するニューラルネットワークが含まれる。 |
変動性(Variability) | 低い変動性。大半のデータは、共有ソースから一定のペースで流れる。高度な計算処理要件のため、サーバ負荷によって、バーストモードのデータ転送を導入できる。 |
また、ビッグデータ分析に踏み込んだ特徴として、以下のような点を挙げている。
ビッグデータ分析の特徴 | 概要 |
---|---|
正確性(堅牢性の課題、意味) | 機械学習アプリケーションのデータセットは、人手でラベリング・確認されることがしばしある。極端に大きいデータセットには、不特定多数によりラベリングされたものが含まれており、ラベリングが明確でない曖昧な状況を招く。自動ラベリングシステムは、人手によるエラーチェックが依然として必要。大規模なデータセット構築のための上手な手法は研究が活発な領域である。 |
可視化 | 学習されたネットワークの可視化は、部分的にデバッグの手法であるが、オープンな研究領域となっている。可視化アプリケーションには、テストイメージの可視化予測が含まれる。 |
データ品質(syntax) | 収集されたデータ(例:圧縮動画や音声)の中には、未知のフォーマットやコーデックが含まれていたり、破損していたりする可能性がある。オリジナルソースのデータを自動的にフィルタリングすると、これらが削除される。 |
データの種類 | 画像、動画、音声、テキスト(実際にはほぼ何でも)。 |
データ分析 | 少量のバッチの統計前処理:他の全データの処理は学習アルゴリズム自身によって実行される。 |
ユースケースでは、これらを踏まえた上で、以下の通りビッグデータ固有の課題、モビリティにフォーカスした課題、さらに深層学習のユースケースを一般化するに際しての課題を整理している。
ビッグデータの課題 | 概要 |
---|---|
ビッグデータ固有の課題(ギャップ) | 適度な量のデータの処理要件でさえも極端。トレーニングされた表現ならテラバイトの量のデータを利用できるが、トレーニング中に全てのデータ処理を行うことは難しい。最先端の深層学習システムは100億以上の自由パラメーター(脳のシナプスと同等)を有するニューラルネットワークを利用することが可能であり、トレーニング1例あたり数兆の浮動小数点演算を必要とする。ハイパフォーマンスインフラストラクチャ上で分散処理を実行することは、我々が現在多く利用しているカスタムソフトウェアシステムにとって、最大の課題である。 |
モビリティにおけるビッグデータ固有の課題 | 大規模ニューラルネットワークのトレーニング完了後、リアルタイム予測で利用するために、学習したネットワークを極端に低い計算処理機能を持った他のデバイスにコピーする可能性がある。例えば、自律運転では64GPUのHPCクラスタを利用してトレーニング手順を実行する。しかしながら、トレーニングの結果はハンドルの操縦や、障害物の回避に関する意思決定に必要な知識をエンコードするニューラルネットワークである。このネットワークを、自動車またはセンサーに組み込まれたハードウェアにコピーできる。 |
ユースケース一般化に向けた課題 | 深層学習は機械学習の幅広いフィールドを持った多くの特性を共有する。重要な要件は主に密な線形代数演算のための高い計算処理スループットであり、極端に高い生産性が求められる。大抵の深層学習システムは、ベストパフォーマンスのためにターゲットアプリケーション上で、かなりの程度チューニングを必要とするため、合間に設計者が介在する大規模な実験が必要となる。その結果、実験の応答時間を最小化して、開発を加速させることが重要になる |
日本でもIT業界や製造業界、金融業界などを中心に、機械学習や深層学習の取り組みが活発化してきたが、具体的なユースケースやベストプラクティスの開発は、これからの段階だ。また、米国のように、オープンデータ/オープンガバメント施策を担う政府機関や「EdTech」スタートアップ企業と連携したエコシステムの構築も遅れている。日本ならではの強みを深層学習にどう生かすのかは今後の課題である。
次回は、EU個人データ保護規則がビッグデータにもたらす影響について取り上げる。
宮崎県出身、千葉大学大学院医学薬学府博士課程修了(医薬学博士)。デジタルマーケティング全般(B2B/B2C)および健康医療/介護福祉/ライフサイエンス業界のガバナンス/リスク/コンプライアンス関連調査研究/コンサルティング実績を有し、クラウドセキュリティアライアンス、在日米国商工会議所などでビッグデータのセキュリティに関する啓発活動を行っている。
Twitter:https://twitter.com/esasahara
LinkedIn:https://www.linkedin.com/in/esasahara
Facebook: https://www.facebook.com/esasahara
日本クラウドセキュリティアライアンス ビッグデータユーザーワーキンググループ:
http://www.cloudsecurityalliance.jp/bigdata_wg.html
Copyright © ITmedia, Inc. All Rights Reserved.