マスコミの味方!? 音声・映像をAIで「自動文字起こし」 手作業の時間を3分の1以下に
AIとクラウドの技術を活用し、撮影・録音したデータを自動でテキスト化するサービスが登場。放送・新聞・出版といったメディア企業のコンテンツ制作を効率化する狙い。1時間分の音声・動画を手作業でテキスト化する場合の所要時間を約5時間から約1.5時間にまで短縮できたという。
パナソニック システムソリューションズ ジャパンは10月28日、AIとクラウドの技術を活用し、撮影・録音したデータを自動でテキスト化するサービス「P-VoT」(ピーボット)を11月13日にリリースすると発表した。放送・新聞・出版といったメディア企業のコンテンツ制作を効率化する狙い。
メディア業界では、コンテンツを制作する下準備として、インタビューなどの録音データをスタッフが聞き直し、手作業で書き起こすケースが多い。だが同社の試算によると、1時間分の音声・動画をテキスト化する作業の所要時間は約5時間掛かることもあり、長時間労働の一因になっているという。P-VoTでこれを約1.5時間にまで短縮し、業務改善につなげるとしている。
P-VoTはブラウザベースのサービス。ユーザーが取材現場で記録した音声・動画のファイルをクラウド上にアップロードすると、同社の高精度音声認識装置が内容を分析し、専用Webサイトにテキストを表示する。音声認識には、ディープニューラルネットワーク(DNN)技術を使用している。
データを複数人で共有し、共同で編集することも可能。現場の取材担当者が入手した音声や映像をP-VoTにアップロードし、出力されたテキストを内勤の編集担当者が記事として仕上げ、スピーディーに公開する――といった使い方にも対応する。
分析では30秒を1セクションとし、Webサイトでは分析結果を小分けにして表示する。ユーザーが文字をクリックすると、該当箇所を再生する仕組みも採用。結果を確認する際に、巻き戻し・早送りを行う手間を解消した。
この他、共同編集の際に、編集が完了したテキストを誤って改変しないよう、セクションごとに「編集ロック」をかけられる機能なども備える。
料金体系は従量課金制で、音声・映像を10秒分析するごとに20円の利用料が発生する。6月から放送業界限定でβ版を提供し、フィードバックを踏まえて改良した結果、正式リリースに至ったとしている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 「校閲・校正ができるAI」登場 “てにをは”や誤字脱字をチェック 「保証」と「補償」の違いも理解
凸版印刷が「AI校閲・校正支援システム」を開発。広告、パンフレット、カタログなどの原稿を読み込ませると、誤変換や誤字脱字を自動で検出する。法人の文書作成を効率化する狙いで、まずは金融業界向けに提供を始める。 - LINEに画像を送ると、AIが3秒で文字起こし 「企業や役所の働き方変える」 長崎のベンチャーが開発
紙の書類をスマホで撮影して「LINE」で送ると、約3秒でテキスト化して返信するAIアプリが登場。開発元は、長崎県西海市のベンチャー企業「西海クリエイティブカンパニー」。ユーザーがOCRソフトなどを用意しなくても、書類や帳票を簡単にデータ化できる点が特徴だ。