「宮崎知己の考えるラジオ《THINK RADIO》」(崎はたつさき。以下、考えるラジオ)という硬派な情報を提供する音声メディア(YouTubeも同時配信)の運営に関わることになり、動画の字幕作成を効率的に実施する必要に迫られた。
当初、「音声ファイルからの文字起こしなんてAIにファイルを投げれば簡単だろ」とあまく考えていた。だが、いざ始めてみると、ChatGPTや米GoogleのチャットAI「Gemini」、米Microsoftの「Copilot」といった主要AIサービスでどうにもうまくいかない。帯に短したすきに長しなのだ。
例えば、「Microsoft 365 Copilot」における「Word」のトランスクリプト機能では、文字起こしは可能でも、主目的であるタイムコード(時間情報)付き字幕ファイル「SRTファイル」の作成は難しい。
また、ChatGPT(無料版)の場合、「ファイル容量の上限」「時間的上限」などの制約があり、ファイル分割などの前処理が必要となる。「考えるラジオ」は、1番組が長いもので50分近くになることがあるから前処理の手間は極力避けたい。
とにかく、手作業をなるべく減らし、できる限り高精度な成果物を得たかった。そこで、ChatGPTに次のような要望を伝えた。
- 前処理のような手間はかけたくない
- 可能なかぎり高精度に文字化したい
- 校正や校閲も実施できればうれしい
すると、次の2つの方法を提案してきた。
- その1:OpenAIの文字起こしAPI(Whisper)を使う方法(ファイルをアップロードするだけでOK)
- その2:お手元のMacで行う方法。例えば「Whisper.cpp」や「ffmpeg + Whisper」など、無料のコマンドで精度よく文字起こし可能
その1の場合、前述の制約があり、うまくいかないことが分かっているので、その2のローカル環境に字幕の文字起こしとSRTファイルを作成する仕組みを構築することにした。
筆者のメインマシンは、2023年の秋に購入した「MacBook Pro」(M3 Proチップ搭載)だ。ここに文字起こし環境を構築するのだが、プログラマーではない筆者には、「Whisper.cpp」だの「ffmpeg」といわれてもそれが何を意味するのかさっぱり分からない。
コマンド入力によりファイル操作などを実行するアプリケーション「Terminal」で、環境を整えていくのだろうという程度の知識があるくらいだ。そこで、筆者の側で勉強や下調べといった悪あがきをしないで、ChatGPTに全てを委ねて、指示通り作業を進めることに決めた。
Copyright © ITmedia, Inc. All Rights Reserved.