ITmedia NEWS > AI+ >
ITmedia AI+ AI活用のいまが分かる

何を使って取材し、どう書き起こしているか 今の仕事環境をまとめてみた(4/4 ページ)

» 2022年04月05日 12時41分 公開
[西田宗千佳ITmedia]
前のページへ 1|2|3|4       

書き起こしはまさかの「Web版Word」最強説

 以前は「録音の書き起こし」での選択肢はほとんどなかった。だが、今は日本語であってもいろいろな選び方ができる。お金も使っていろいろなサービスをテストして、なんとなく今のところの「ベストシナリオ」が見えてきた。

 英語の取材は「Otter」ですることに変わりはない。こちらもいろいろ選択肢はあるのだが、機器を選ばない使い勝手と精度の両面で、いまだファーストチョイスである。

 英語話者との取材はまだオンラインが主流なので、PC/Mac内でKrispを使って録音し、そのデータをOtterに読み込ませて書き起こしをする。そのまま英語で読むこともあるが、「DeepL」に通して日本語にし、おかしいところや、英語での取材時とニュアンスが違うと感じるところだけOtterの書き起こしを見て、さらに違うと思ったら聞き直す……という3段構えになった。それでも、英語だけのインタビューだと、半分くらいは最終的に聞き直すが、原稿を書くまでの労力は昔の3分の1くらいに減っていると感じる。

 日本語での取材は、結局「Web版Microsoft Word」の日本語トランスクリプト(書き起こし)機能と、ネットサービス「Notta」の合わせ技になった。

 Pixel 6の書き起こしを使うとコストがかからないのだが、難点は「録音済みの音声から書き起こしができないこと」「Pixelを必ず必要とすること」だった。ビデオ会議取材の書き起こしだと、外にPixel 6を置いてスピーカーの音を聞かせる感じになるが、それも、どうもスマートじゃない。

 結果、まずは録音してしまい、後から録音データを読み込んで書きおこせるサービスがいい……という結論に至った。Web版WordとNottaは、どちらも録音データからの書き起こしに対応しており、こちらの要望に合う。

 実は、一番優秀で使い勝手もいいのはWeb版Wordだと思う。これも以前記事で書いたが、Web版Wordの日本語トランスクリプト機能は、「録音中に出てくる話者を聞き分け」た上で書き起こしをしてくれる。この要素は他のサービスにはなく、インタビューなどのテキスト化には重要な要素である。

 ただし、Web版Wordには「1カ月で300分のデータしか書き起こせない」という制限がある。1時間の取材で5本分だから、西田のニーズにはまったく足りない。

photo Wordの文字起こしは1カ月最大300分

 そこで、「ここぞ」というところでWeb版Wordを使い、それ以外ではNottaを使う……という流れが定着した。

 Nottaは無料版と有料の「プレミアム」があり、西田は「プレミアム」に契約しているので、月に1800分の書き起こしができる。補助的に……というには少々高いのだがしょうがない。

 実は現在、note版で金曜日に掲載している「今週の壁打ち」の書き起こしは、Nottaで書き起こしたものを修正して掲載している。

 ずいぶんラフな内容とはいえ、認識後のデータからの掲載版への校正は、作業時間10分から15分。それで20分くらいのトーク内容の書き起こしができているのだから、十分な省力化だと思っている。

 この辺はまだまだ変化があるところかと思うが、なんとか、取材音声のテキスト化にめどがついてきた印象がある。もう少しサービスを絞り込めると、出費も少なくなるのだが。

前のページへ 1|2|3|4       

Copyright © ITmedia, Inc. All Rights Reserved.