メディア

テープ起こしをするなら音声認識が最強：AI時代の仕事術（3/4 ページ）

» 2018年12月23日 10時20分公開

[斎藤健二，ITmedia]

前のページへ 1|2|3|4 次のページへ

会議の録音をそのまま音声認識してくれれば楽なのだが

　誰もが思うのが、そこまで音声認識が良くなったのなら、会議の録音をそのまま認識させればそれだけで議事録ができるんじゃないか？　という疑問だろう。実際、それをうたうスマホアプリやサービスも多数登場している。

この画面はwriter.appというオンラインエディタに音声ファイルから自動文字起こしをさせたもの。このレベルならば実現可能だ。裏側で音声が再生され、それが次々と文字になっていくのを見たとき、未来がここにあると感じた。ただし、この文章を修正するなら最初からやり直したほうがいいとも感じた。Macでは、SoundFlowというアプリを使うことで、再生ソフトの出力をマイク入力として受け取ることができる。この仕組みを使えば、例えばQuickTime Playerで音声を再生して、それをGoogleドライブの音声認識に渡して認識させることもできる。ただし、Googleドライブの音声認識は不安定で、5分程度で止まってしまうことが多かった。writer.appの魅力は、途中で止まることなく長時間認識を続けてくれるところだ

　しかしいくつかのアプリを試したところでは、なかなか思ったような認識はしてくれなかった。音量の問題もあると思うが、複数人が話した場合は致命的にダメだし、そもそも話した内容がそのまま日本語の文章として成り立つように話せる人はごくまれだ。そして音声認識はそうした文章が苦手なのである。

　ではどうするか？　録音データをイヤホンで再生させて聞きながら、自分の声で話し直すのである。それを音声認識させる。話者の名前を冒頭に入れることもできるし、破綻している日本語を組み立て直して話すこともできる。

　やったことのある人なら分かると思うが、1時間の会議をテープ起こしするには、少なくとも2時間はかかる。でも、この「自分で話し直す音声認識」なら、1時間ちょっとで完了するのだ。あとは、音声認識がミスった部分を最後に直すだけでいい。

　筆者の場合は、iPhoneで録音したデータを再生し、PCでGoogleドキュメントを開いて話しかける方法を使っている。人によっては、iPhoneで聞いて、iPadの音声認識機能で入力するほうが使いやすいかもしれない。ここは人それぞれだと思う。

テープ起こしに向いた音声再生アプリは意外とない

前のページへ 1|2|3|4 次のページへ