Google、音声認識システム訓練用データセットをオープンソースで提供

» 2017年08月28日 08時23分公開

[佐藤由紀子，ITmedia]

　米Googleは8月24日（現地時間）、音声認識機能搭載アプリ開発向けの基本的な音声命令のデータセット「Speech Commands Dataset」をオープンソースで公開したと発表した。公式ブログ内のリンクをクリックすると圧縮ファイルをダウンロードできる。

　Speech Commands Datasetは、同社の機械学習ライブラリ「TensorFlow」を手掛けるチームと、人工知能（AI）向けハードウェアキット提供プロジェクト「AIY（Artificial Intelligence Yourself） Projects」チームが共同で開発したもの。

　データは、「Yes」「No」「Stop」「Go」など、音声サービスでよく使われる30個の英単語を、数千人のボランティアが読み上げたもので、長さ1秒の録音6万5000件が収録されている。

　この録音は、AIYが公開しているWebサイトを通じて集められた。このサイトは現在も公開されており、誰でも参加できる。Speech Commands Datasetには今後、公開後に録音されたデータが追加されていく。

AIYの単語録音ページ

　Googleはこうしたデータを収集するためのインフラもGitHubで公開している。

　同社が5月に立ち上げたAIY Projectは、AI搭載ハードウェアを自作する人のためにキットを提供するプロジェクト。まずは自然言語を音声認識する対話ガジェット「Voice Kit」の基本セットを英米の書店などを通じて提供している。今回公開したデータセットはVoice Kitでも使える。

Voice Kit

　GoogleやFacebookなど、音声サービスを提供している企業自身は、「Googleアシスタント」や音声チャットサービスで収集したユーザーの膨大な音声データを音声認識AIツールの訓練に利用できるが、小規模な開発者が訓練データを入手するのは難しい。こうしたオープンソースのデータセット公開は音声認識アプリ普及を後押ししそうだ。

　同じようなプロジェクトはMozillaも6月に「Common Voice」として立ち上げた。こちらはまだ録音を集めている段階で、1万時間分のデータ収集を目標にしている。データセットは年内に公開する見込みだ。

Mozillaの「Common Voice」プロジェクト

「Google Assistant」もサードパーティー端末搭載が可能に　SDK公開
「Amazon Alexa」に続き、GoogleもAIアシスタント「Google Assistant」のSDKを公開した。「Ok Google」で操作できるサードパーティー製品の登場が期待できる。
GoogleのAIライブラリ「TensorFlow」がVer.1.0に　高速化してより柔軟に、新APIも追加
Googleがオープンソースで公開しているディープラーニング対応の機械学習ライブラリ「TensorFlow」が“プロダクトレディ”なバージョン1.0にアップデートした。58倍高速化し、多数の新APIが追加され、Python APIの安定性が向上した。
Google、アプリに音声認識機能を追加できる「Cloud Speech API」を公開
Googleが、AndroidのGoogle NowやGoogle Keyboardの音声入力で採用している機械学習音声認識機能をアプリに追加できる「Cloud Speech API」をGoogle Cloud Platformユーザー向け限定プレビューとしてリリースした。
コーディング不要のディープラーニング開発ツール、ソニーが無償提供
コーディング不要で、ディープラーニングのプログラムを生成できるソフトウェア「Neural Network Console」を、ソニーが無償提供。