声をテキスト化「Azure Media Indexer」、夢のリアルタイム通訳「Skype Translator」も近々The Microsoft Conference 2014レポート

Microsoftエバンジェリストの西脇氏が、Azure上で動く「Azure Media Indexer」を紹介。Azureのクラウド基盤を軸に「リアルタイム通訳」まで想定できる。

» 2014年10月23日 21時06分 公開
[岩城俊介,ITmedia]

 クラウドプラットフォームのAzureへ格納した動画コンテンツは、さまざまなデバイスで再生できる。マイクロソフトはAzureプラットフォームで、プラスαの、より身近な取り組みも推進する。Microsoftエバンジェリストの西脇資哲氏が「The Microsoft Conference 2014」で説明した、

 その1つが「Azure Media Indexer」だ。格納した動画へインデックスを付けるAzureのツール。具体的には、しゃべっている動画の中身を分析し、音声を拾い、それをテキスト化する技術だ。

photo 動画の音声を抽出し、タイムコードとともにテキスト化する「Azure Media Indexer」

 Azure Media Indexerは、Microsoft Researchで開発された「Microsoft Audio Video Indexing Service(MAVIS)」をベースに、Azure Media Serviceのメディアプロセッサとして提供する。テキストは字幕情報用、SQL Server Full-Text Search上の音声サーチ用データ、キーワード用などとして出力できる。

 これで何ができるのか。例えば「長時間の基調講演で、あの人が“あのこと”を言ったのは、いつ頃だったっけ」を動画から探す方法、これまでどうしていただろう。テキストはタイムコード付きで抽出される。つまり、「動画の中身の検索」ができるようになる。テキストデータなら、それをもとに翻訳した字幕データにすることも可能だ。

photo この数分前に登壇した楽天のジェームス・チェンCTOのスピーチ内容を、Azure Media Indexerでテキスト化し、字幕として動画へ表示
photo 翻訳も可能

 これをもう少し進めると「リアルタイム通訳」が可能になる。「Skype Translator」という、Skepeでのビデオ会話をリアルタイムで通訳する取り組みが完成間近という。

photo Skepeでのビデオ会話をリアルタイムで通訳する「Skype Translator」
photo 話した言葉は相手に適する言語で、相手の言葉は自分に適する言語に通訳して会話できる

 クラウド技術を使い、身近な範囲で言語の壁を取り払える世界がいよいよ見えてきた。

 (初出時、Azure Media Indexerの名称に誤記がありました。お詫びして訂正いたします)

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ