メディア

Google、アプリに音声認識機能を追加できる「Cloud Speech API」を公開

Googleが、AndroidのGoogle NowやGoogle Keyboardの音声入力で採用している機械学習音声認識機能をアプリに追加できる「Cloud Speech API」をGoogle Cloud Platformユーザー向け限定プレビューとしてリリースした。

» 2016年03月24日 08時38分公開

[佐藤由紀子，ITmedia]

　米Googleは3月23日（現地時間）、米サンフランシスコで開催のクラウド関連イベント「GCP Next 2016」において、アプリに機械学習による音声認識機能を追加できる「Google Cloud Speech API」（プレビュー）をリリースしたと発表した。「Google Cloud Platform」を利用する開発者はこちらから限定プレビューに申し込める。少なくともプレビュー期間中は無料だ。

　Cloud Speech APIは、同社がAndroidの「Google Now」の音声検索や「Google Keyboard」での音声によるテキスト入力などで使っているディープラーニングニューラルネットワーク技術「Automatic Speech Recognition」をアプリで使えるようにするREST API。

　80カ国語以上をサポートし、雑音の多い環境でも高い認識性能を誇る。

　デモ動画（記事末に転載）では、Raspberry Piベースでマイクを搭載するロボットに「踊れる？」と語りかけると、ロボットがくるくる回転してみせたり、「回れ右」と日本語で命令すると右に回転する様子が紹介されている。

日本語も認識する

　Googleは昨年12月には画像認識機能の「Google Cloud Vision API」を公開した。また、同日Google Cloud Platformの新サービス「Cloud Machine Learning」を発表した。開発者はこれらのサービスを利用して、画像／音声認識と機械学習を応用したアプリを開発できる。

Google、「Google Now」などで採用の機械学習サービス「Cloud Machine Learning」公開
Googleは、Google Cloud Platformのサービス「Cloud Machine Learning」の無料トライアルの受付を開始した。開発者は「Google Now」や「Googleフォト」で採用するディープラーニング技術を利用できる。
Googleドキュメント、音声での編集が可能に
Googleドキュメントでは昨年9月から音声でのテキスト入力が可能だが、音声での編集も可能になった。まずは英語版のChromeブラウザ版で、改行やフレーズのコピー＆ペースト、箇条書きなどができるようになった。
Google、アプリに画像認識機能を追加できる「Cloud Vision API」を公開
Googleが、GoogleフォトやSafeSearchで採用している機械学習画像認識機能をアプリに追加できる「Cloud Vision API」をGoogle Cloud Platformユーザー向け限定プレビューとしてリリースした。
Google、機械学習システム「TensorFlow」をオープンソースで公開
人工知能に注力するGoogleが、自社開発した機械学習システム「TensorFlow」をApache 2.0ライセンスでオープンソース化した。

Google、アプリに音声認識機能を追加できる「Cloud Speech API」を公開

関連記事

関連リンク

注目のテーマ

人気記事ランキング