2015年7月27日以前の記事
検索
コラム

テープ起こしをするなら音声認識が最強AI時代の仕事術(3/4 ページ)

会議の議事録づくりをしたことがありますか? 録音されたデータを聞きながら、文字にしていくテープ起こし作業はかなりやっかい。しかし、技術はちゃんと進歩していて、音声認識を使えばかなり楽になる。ただし、録音データをそのまま文字にしてくれるのはまだ将来の話のようだ。

Share
Tweet
LINE
Hatena
-

会議の録音をそのまま音声認識してくれれば楽なのだが

 誰もが思うのが、そこまで音声認識が良くなったのなら、会議の録音をそのまま認識させればそれだけで議事録ができるんじゃないか? という疑問だろう。実際、それをうたうスマホアプリやサービスも多数登場している。


この画面はwriter.appというオンラインエディタに音声ファイルから自動文字起こしをさせたもの。このレベルならば実現可能だ。裏側で音声が再生され、それが次々と文字になっていくのを見たとき、未来がここにあると感じた。ただし、この文章を修正するなら最初からやり直したほうがいいとも感じた。Macでは、SoundFlowというアプリを使うことで、再生ソフトの出力をマイク入力として受け取ることができる。この仕組みを使えば、例えばQuickTime Playerで音声を再生して、それをGoogleドライブの音声認識に渡して認識させることもできる。ただし、Googleドライブの音声認識は不安定で、5分程度で止まってしまうことが多かった。writer.appの魅力は、途中で止まることなく長時間認識を続けてくれるところだ

 しかしいくつかのアプリを試したところでは、なかなか思ったような認識はしてくれなかった。音量の問題もあると思うが、複数人が話した場合は致命的にダメだし、そもそも話した内容がそのまま日本語の文章として成り立つように話せる人はごくまれだ。そして音声認識はそうした文章が苦手なのである。

 ではどうするか? 録音データをイヤホンで再生させて聞きながら、自分の声で話し直すのである。それを音声認識させる。話者の名前を冒頭に入れることもできるし、破綻している日本語を組み立て直して話すこともできる。

 やったことのある人なら分かると思うが、1時間の会議をテープ起こしするには、少なくとも2時間はかかる。でも、この「自分で話し直す音声認識」なら、1時間ちょっとで完了するのだ。あとは、音声認識がミスった部分を最後に直すだけでいい。

 筆者の場合は、iPhoneで録音したデータを再生し、PCでGoogleドキュメントを開いて話しかける方法を使っている。人によっては、iPhoneで聞いて、iPadの音声認識機能で入力するほうが使いやすいかもしれない。ここは人それぞれだと思う。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る