メディア

AI活用のいまが分かる

ITmedia AI＋ >

プログラミング素人、ChatGPTで「YouTubeの字幕作成」自動化にトライ　動画制作を効率化できるか？（1/3 ページ）

» 2025年11月27日 12時00分公開

[山崎潤一郎，ITmedia]

　「宮崎知己の考えるラジオ《THINK RADIO》」（崎はたつさき。以下、考えるラジオ）という硬派な情報を提供する音声メディア（YouTubeも同時配信）の運営に関わることになり、動画の字幕作成を効率的に実施する必要に迫られた。

YouTubeにも同時配信するポッドキャスト番組の字幕文字起こしの環境をMacBook Proのローカルに構築する必要に迫られた

　当初、「音声ファイルからの文字起こしなんてAIにファイルを投げれば簡単だろ」とあまく考えていた。だが、いざ始めてみると、ChatGPTや米GoogleのチャットAI「Gemini」、米Microsoftの「Copilot」といった主要AIサービスでどうにもうまくいかない。帯に短したすきに長しなのだ。

　例えば、「Microsoft 365 Copilot」における「Word」のトランスクリプト機能では、文字起こしは可能でも、主目的であるタイムコード（時間情報）付き字幕ファイル「SRTファイル」の作成は難しい。

　また、ChatGPT（無料版）の場合、「ファイル容量の上限」「時間的上限」などの制約があり、ファイル分割などの前処理が必要となる。「考えるラジオ」は、1番組が長いもので50分近くになることがあるから前処理の手間は極力避けたい。

　とにかく、手作業をなるべく減らし、できる限り高精度な成果物を得たかった。そこで、ChatGPTに次のような要望を伝えた。

- 前処理のような手間はかけたくない

- 可能なかぎり高精度に文字化したい

- 校正や校閲も実施できればうれしい

　すると、次の2つの方法を提案してきた。

- その1：OpenAIの文字起こしAPI（Whisper）を使う方法（ファイルをアップロードするだけでOK）

- その2：お手元のMacで行う方法。例えば「Whisper.cpp」や「ffmpeg + Whisper」など、無料のコマンドで精度よく文字起こし可能

　その1の場合、前述の制約があり、うまくいかないことが分かっているので、その2のローカル環境に字幕の文字起こしとSRTファイルを作成する仕組みを構築することにした。

MacBook Proに字幕作成環境を構築

　筆者のメインマシンは、2023年の秋に購入した「MacBook Pro」（M3 Proチップ搭載）だ。ここに文字起こし環境を構築するのだが、プログラマーではない筆者には、「Whisper.cpp」だの「ffmpeg」といわれてもそれが何を意味するのかさっぱり分からない。

　コマンド入力によりファイル操作などを実行するアプリケーション「Terminal」で、環境を整えていくのだろうという程度の知識があるくらいだ。そこで、筆者の側で勉強や下調べといった悪あがきをしないで、ChatGPTに全てを委ねて、指示通り作業を進めることに決めた。

ChatGPTを頼って開発にトライ、結果は？

　　　　　　 1|2|3 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

SpecialPR

記事ジャンル

活用目的別

業務効率化・自動化

意思決定支援

顧客体験向上

導入前後の課題

セキュリティ・プライバシー

データ収集・整形

組織文化・人材育成

法規制・倫理

アイティメディアからのお知らせ

キャリア採用の応募を受け付けています

RANKING

1

なぜAIによるエンジニア代替はうまくいかないのか？　“効率化”のはずが、現場で起きている逆転現象

2

日本政府、AIの社会実装を妨げている規制の情報を募集　制度見直しの参考に

3

日本発のAI VTuber「しずく」開発元、米VC大手a16zから資金調達

4

NTT、独自のAIモデル「tsuzumi 2」発表　“国産AI開発競争”に「負けられない」と島田社長

5

ノジマ、“ロボットだらけ”のショールーム開設　一般客も利用可能

SpecialPR

メールマガジンのお知らせ

ITmedia AI＋メルマガ、週1配信中！注目記事と“旬”を解説したミニコラム

ご購読はこちら »

RSS
X

ITmediaはアイティメディア株式会社の登録商標です。

メディア一覧 | 公式SNS | 広告案内 | お問い合わせ | プライバシーポリシー | RSS | 運営会社 | 採用情報 | 推奨環境