複数人が同時に話してもリアルタイムで聞き分け集音　東芝が新技術

複数の人が同時に話しても、話者ごとに聞き分けて集音できる技術を東芝が開発。

[ITmedia] PC用表示関連情報

LINE

Hatena

　東芝は10月25日、複数の人が同時に話してもリアルタイムに“聞き分け”を行い、話者ごとに集音できる「分離集音技術」を開発したと発表した。

　音声認識技術によって会話を正確にテキスト化するには、同時に話している複数の人の声を分離させる必要がある。だが、従来の集音技術で複数話者の声を分離するためには、事前に数十分ほど録音し、システムが話者を識別できるようにしておく必要があったという。

　新技術は、マイクからみた話者の位置情報を基に1人1人の声を分離する方式を採用した。複数台のマイクを搭載した音声入力機器を用い、話者ごとに異なるマイクが対応。音の到達時間差や振幅差を比べ、話者との相対的な位置関係を判定することで、音声を聞き分ける仕組みだ。

　事前録音が不要になったほか、分離精度も向上したという。ただし現段階では、会議中に参加者が位置関係を大きく変えたり、歩き回ったりすると、話者の判定がリセットされてしまう可能性もある。

　聞き分けた音声は、話者ごとにテキスト化して議事録作成の負担を軽減したり、接客でユーザーの意見を分析したり――といった活用を見込む。自動翻訳機能と連携すれば、訪日外国人向けサービスにも応用できるとしている。

　同技術は、東芝の人工知能（AI）サービス「RECAIUS」（リカイアス）に2017年度中に搭載する予定。