メディア
ITmedia AI+ >

プログラミング素人、ChatGPTで「YouTubeの字幕作成」自動化にトライ 動画制作を効率化できるか?(1/3 ページ)

» 2025年11月27日 12時00分 公開
[山崎潤一郎ITmedia]

 「宮崎知己の考えるラジオ《THINK RADIO》」(崎はたつさき。以下、考えるラジオ)という硬派な情報を提供する音声メディア(YouTubeも同時配信)の運営に関わることになり、動画の字幕作成を効率的に実施する必要に迫られた。

YouTubeにも同時配信するポッドキャスト番組の字幕文字起こしの環境をMacBook Proのローカルに構築する必要に迫られた

 当初、「音声ファイルからの文字起こしなんてAIにファイルを投げれば簡単だろ」とあまく考えていた。だが、いざ始めてみると、ChatGPTや米GoogleのチャットAI「Gemini」、米Microsoftの「Copilot」といった主要AIサービスでどうにもうまくいかない。帯に短したすきに長しなのだ。

 例えば、「Microsoft 365 Copilot」における「Word」のトランスクリプト機能では、文字起こしは可能でも、主目的であるタイムコード(時間情報)付き字幕ファイル「SRTファイル」の作成は難しい。

 また、ChatGPT(無料版)の場合、「ファイル容量の上限」「時間的上限」などの制約があり、ファイル分割などの前処理が必要となる。「考えるラジオ」は、1番組が長いもので50分近くになることがあるから前処理の手間は極力避けたい。

 とにかく、手作業をなるべく減らし、できる限り高精度な成果物を得たかった。そこで、ChatGPTに次のような要望を伝えた。

- 前処理のような手間はかけたくない

- 可能なかぎり高精度に文字化したい

- 校正や校閲も実施できればうれしい

 すると、次の2つの方法を提案してきた。

- その1:OpenAIの文字起こしAPI(Whisper)を使う方法(ファイルをアップロードするだけでOK)

- その2:お手元のMacで行う方法。例えば「Whisper.cpp」や「ffmpeg + Whisper」など、無料のコマンドで精度よく文字起こし可能

 その1の場合、前述の制約があり、うまくいかないことが分かっているので、その2のローカル環境に字幕の文字起こしとSRTファイルを作成する仕組みを構築することにした。

MacBook Proに字幕作成環境を構築

 筆者のメインマシンは、2023年の秋に購入した「MacBook Pro」(M3 Proチップ搭載)だ。ここに文字起こし環境を構築するのだが、プログラマーではない筆者には、「Whisper.cpp」だの「ffmpeg」といわれてもそれが何を意味するのかさっぱり分からない。

 コマンド入力によりファイル操作などを実行するアプリケーション「Terminal」で、環境を整えていくのだろうという程度の知識があるくらいだ。そこで、筆者の側で勉強や下調べといった悪あがきをしないで、ChatGPTに全てを委ねて、指示通り作業を進めることに決めた。

       1|2|3 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ