東芝は10月25日、複数の人が同時に話してもリアルタイムに“聞き分け”を行い、話者ごとに集音できる「分離集音技術」を開発したと発表した。
音声認識技術によって会話を正確にテキスト化するには、同時に話している複数の人の声を分離させる必要がある。だが、従来の集音技術で複数話者の声を分離するためには、事前に数十分ほど録音し、システムが話者を識別できるようにしておく必要があったという。
新技術は、マイクからみた話者の位置情報を基に1人1人の声を分離する方式を採用した。複数台のマイクを搭載した音声入力機器を用い、話者ごとに異なるマイクが対応。音の到達時間差や振幅差を比べ、話者との相対的な位置関係を判定することで、音声を聞き分ける仕組みだ。
事前録音が不要になったほか、分離精度も向上したという。ただし現段階では、会議中に参加者が位置関係を大きく変えたり、歩き回ったりすると、話者の判定がリセットされてしまう可能性もある。
聞き分けた音声は、話者ごとにテキスト化して議事録作成の負担を軽減したり、接客でユーザーの意見を分析したり――といった活用を見込む。自動翻訳機能と連携すれば、訪日外国人向けサービスにも応用できるとしている。
同技術は、東芝の人工知能(AI)サービス「RECAIUS」(リカイアス)に2017年度中に搭載する予定。
関連記事
- 会議中の英語・中国語をリアルタイムに翻訳、字幕表示 “社内用語”にも対応 東芝が開発
外国人とのビジネス会議で、日英・日中の音声会話を翻訳し、字幕をリアルタイム表示するシステムを東芝が開発した。 - 授業中の発言と手書きメモをリアルタイムにデータ化 東大、富士通などが実証実験
授業中の生徒の発言や手書きメモをリアルタイムにデータ化し、教育改善に役立てる実証実験を東京大学や富士通が始めた。 - 「言語の壁なくす」――話した言葉を自動翻訳するペンダント型端末、パナソニックが試作 20年までに実用化へ
しゃべった言葉を自動で外国語にしてくれるペンダント型翻訳機をパナソニックが開発。実証実験を重ね、2020年までに実用化を目指すという。 - 声を指輪に 音の波形から3Dモデルを作るWebサービスが登場
「ずっと一緒だよ」「愛してる」などのメッセージを指輪に。 - Bluetooth接続対応、スマホから遠隔会議に参加できる ヤマハのWeb会議スピーカーフォン「YVC-300」
ヤマハは、4〜6人程度のWeb会議用スピーカーフォン「YVC-300」を10月上旬に発売する。Bluetooth接続に対応し、スマホとともに使うこともできる。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.