ITmedia NEWS > 社会とIT >
ITmedia AI+ AI活用のいまが分かる

AIが声からウソを見抜く 劇的に進化する音声認識が変える世界よくわかる人工知能の基礎知識(3/5 ページ)

» 2019年09月09日 07時00分 公開
[小林啓倫ITmedia]

 ここでは日本語の音声が韓国語に自動翻訳され、それを字幕のように画面に表示している。人間が同時通訳する場合、翻訳した結果を音声で伝えるのが一般的だが、このように字幕形式の方が望ましい場合もあるだろう。

 また予約や手配抜きで使える自動翻訳システムが企業内で普及することで、より多くの外国人労働者が日本企業の中で活躍できるようになるはずだ。

 そして会議が終わると、議事録の作成が待っている。しかも忙しくて参加できなかった欠席者から、早く議事録を出せとせっつかれている。とはいえ大人数が参加し長時間にわたった会議だったので、内容を録音していたとしても文字起こしだけで一苦労だ。

 先ほどのMicrosoftによるデモンストレーションを見れば一目瞭然だが、ここでも音声認識を活用できる。言うまでもなく、発話内容の自動テキスト変換である。

 音声のテキスト変換は既に高性能なアプリが登場しており、日常的に活用している方も多いだろう。例えば営業報告などを作成する際、まずは外にいる間に音声で簡単な内容をテキスト化し、オフィスに帰ってから肉付けするといった具合だ。

 東京ガスは、音声認識技術を活用して、スマートフォン等で撮影した画像に音声でメモを付けられる「写(しゃ)テキ」というアプリを開発している。

「写(しゃ)テキ」の説明

 作業員がさまざまな設備の管理・点検をするときに、手袋などをしたまま音声操作のみで作業結果を入力できるようにした。何らかの理由で手を使えない場面にも便利だ。

 また会議の文字起こしに音声認識を使う場合、発言を単純にテキスト化するだけでなく、その発言が誰によって行われたのかまで区別してくれることが望ましい。音声認識技術の向上により、既にこの点まで対応してくれるサービスが登場している。

 例えばTISが開発する音声・対話AIサービス「COET」(コエット)は、最大12人まで(同時発話の場合は2人まで)の話者を識別できる議事録作成機能を搭載している。このシステムではまず、会議の冒頭で参加者に名前を発言してもらい、話者を認識する。会議中は発話内容をリアルタイムでテキスト化し、話者の名前を付けて表示してくれる。

 音声操作ができる、発話内容を翻訳して多言語のコミュニケーションを可能にする、音声(および話者)を正確に読み取ってテキストに変換する――音声認識分野で注目されている主要なアプリについて、会議というシチュエーションを例に紹介してみた。

 もちろん、会議以外の活用も増えている。例えばコールセンターでは、顧客とオペレーターの会話内容をテキスト化し、対応内容に問題がなかったかの確認や、クレーム内容を分析して事故の防止や新製品の開発に役立てる試みも行われている。

Copyright © ITmedia, Inc. All Rights Reserved.