検索
ニュース

マスコミの味方!? 音声・映像をAIで「自動文字起こし」 手作業の時間を3分の1以下に

AIとクラウドの技術を活用し、撮影・録音したデータを自動でテキスト化するサービスが登場。放送・新聞・出版といったメディア企業のコンテンツ制作を効率化する狙い。1時間分の音声・動画を手作業でテキスト化する場合の所要時間を約5時間から約1.5時間にまで短縮できたという。

Share
Tweet
LINE
Hatena

 パナソニック システムソリューションズ ジャパンは10月28日、AIとクラウドの技術を活用し、撮影・録音したデータを自動でテキスト化するサービス「P-VoT」(ピーボット)を11月13日にリリースすると発表した。放送・新聞・出版といったメディア企業のコンテンツ制作を効率化する狙い。

 メディア業界では、コンテンツを制作する下準備として、インタビューなどの録音データをスタッフが聞き直し、手作業で書き起こすケースが多い。だが同社の試算によると、1時間分の音声・動画をテキスト化する作業の所要時間は約5時間掛かることもあり、長時間労働の一因になっているという。P-VoTでこれを約1.5時間にまで短縮し、業務改善につなげるとしている。

 P-VoTはブラウザベースのサービス。ユーザーが取材現場で記録した音声・動画のファイルをクラウド上にアップロードすると、同社の高精度音声認識装置が内容を分析し、専用Webサイトにテキストを表示する。音声認識には、ディープニューラルネットワーク(DNN)技術を使用している。

photo

 データを複数人で共有し、共同で編集することも可能。現場の取材担当者が入手した音声や映像をP-VoTにアップロードし、出力されたテキストを内勤の編集担当者が記事として仕上げ、スピーディーに公開する――といった使い方にも対応する。

 分析では30秒を1セクションとし、Webサイトでは分析結果を小分けにして表示する。ユーザーが文字をクリックすると、該当箇所を再生する仕組みも採用。結果を確認する際に、巻き戻し・早送りを行う手間を解消した。

 この他、共同編集の際に、編集が完了したテキストを誤って改変しないよう、セクションごとに「編集ロック」をかけられる機能なども備える。

 料金体系は従量課金制で、音声・映像を10秒分析するごとに20円の利用料が発生する。6月から放送業界限定でβ版を提供し、フィードバックを踏まえて改良した結果、正式リリースに至ったとしている。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る