米Amazon.com傘下のAWSは11月29日（現地時間）、年次イベント「AWS re:Invent 2017」で、AI採用の3つの音声・テキスト関連サービス「Amazon Transcribe」「Amazon Comprehend」「Amazon Translate」を発表した。いずれも日本語にはまだ対応していないが、今後対応言語は拡大していく見込みだ。

音声→テキスト変換サービス「Amazon Transcribe」

　Amazon Transcribeは音声をテキストに変換する機能をアプリに追加するための自動音声認識サービス。機械学習技術を採用し、Amazon S3に保存してある最長2時間の音声ファイルをAmazon Transcribe APIで解析し、テキストファイルに変換できる。

　発表段階では英語とスペイン語のみサポートする。“間もなく”他の言語も追加していくという。WAV、MP3、MP4、FLACをサポートし、電話の音声など低品質なデータでも解析できるとしている。近い将来には複数の話者の識別が可能になる見込みだ。専門用語や固有名詞など、語彙のカスタマイズも可能になる予定。

Amazon Transcribe

テキストから感情を抽出する「Amazon Comprehend」

　Amazon Comprehendは、テキストデータを解析し、キーワードや地名、固有名詞、ポジティブ／ネガティブな言葉などの情報を抽出する自然言語処理（NLP）サービス。英語とスペイン語で利用できる。テキストを与えてから数百秒ミリで結果が返ってくる。サービス提供開始後も学習を続け、精度が上がっていく。

Amazon Comprehend

　ユースケースとしては顧客の感情解析、検索エンジンの改良、ナレッジ管理などが考えられる。Amazon Transcribeと組み合わせれば、サポートセンターへの電話での問い合わせ解析に使えるだろう。

自動翻訳サービス「Amazon Translate」（日本語はまだ）

　Amazon Translateは、機械学習技術採用のニューラル機械翻訳サービス。テキストを翻訳する。まずは英語←→アラビア語、簡体字中国語、フランス語、ドイツ語、スペイン語、ポルトガル語をサポートする。

Amazon Translate

　Amazon Transcribe、テキストを自然に読み上げる「Amazon Polly」などと組み合わせれば、音声の翻訳サービスの構築も可能だ。

　「AWS re:Invent 2017」で発表された新サービスはAWSの特設サイトにまとめられている。

AWS、リアルタイム動画でも画像認識できる「Amazon Rekognition Video」提供開始
AWSが人工知能（AI）サービス「Amazon AI」の「Amazon Rekognition」にリアルタイム動画もサポートする動画認識機能を追加した。
Amazon、ディープラーニング向けビデオカメラ「AWS DeepLens」を249ドルで発売へ
Amazon傘下のAWSが、手軽にディープラーニング採用の顔認識アプリなどを開発できるビデオカメラ「DeepLens」を発表した。まずは4月に米国で発売する。価格は249ドル。TensorFlowやCaffe2もサポートする。
“AIアナウンサー”がラジオ放送　Amazonの音声合成技術で
コミュニティーFMを運営するエフエム和歌山が、AIサービス「Amazon Polly」を使ったラジオ放送を7月に始めた。ニュース原稿を自動で読み上げるという。
会話のリアルタイム翻訳もできる無線イヤフォン「Pixel Buds」登場
Googleが「Googleアシスタント」搭載のBluetoothイヤフォン「Pixel Buds」を159ドルで発売する（日本での発売は未定）。Pixel端末と接続すれば、会話のリアルタイム音声翻訳もできる。