プログラミング素人、ChatGPTで「YouTubeの字幕作成」自動化にトライ 動画制作を効率化できるか?(2/3 ページ)
環境構築の手順を次に示そう。
- Homebrew(macOS用のパッケージ管理ツール)の導入
- 音声変換ツールffmpegの導入(音声ファイルの最適化)
- Pythonの導入
- OpenAIの音声認識モデル(Speech-to-Text)であるWhisperをインストール
- Apple製品のGPUにアクセスできるAPI「Metal」に最適化されたWhisper.cppのインストール
このように手順をリストアップすると、いかにも大変そうだが、「手元のMacで行う方法で構築したい」と投げかけて、ChatGPTが組み込まれたWebブラウザ「ChatGPT Atlas」に表示されるコマンドをTerminalにコピペしてリターンキーを押す、という作業をくり返しただけだ。
途中エラーが返ってきたら、そのエラーをそのままChatGPTにコピペして質問する。例えば、次のようなエラーが表示されたので、そのままコピペした。
zsh: command not found: #
zsh: command not found: pip
すると、「このエラーは多くのMacで起きる『HomebrewのPythonとpipのパスが通っていない』問題が原因です。順を追って直しましょう」と返され、パスを通すための修正コマンドが1ステップずつ示される。その際、エラーが出る背景やコマンドの意味も同時に説明してくれる。なんと親切なことか。
自分で調べるな、ググるな
この一連の作業を通して知り得たことがある。それはAIを使う際「自分で調べるな、ググるな」ということだ。前述のパスエラーのChatGPTによる説明には、「Homebrew経由のPythonについての注意書き」を記述したサイトが参考として表示されるのだが、筆者のようなプログラミング素人が見ても何のことかさっぱり分からない。
今回のように、自分のPCに情報処理の環境を構築するような使い方においては、無力な自分をさらけ出し、ChatGPTに100%身を委ねることこそが目的を達成する近道だと思い知った。自分の目的は、タイムコード付き字幕ファイルを作ることであり、Terminal操作やPythonのスキルを身につけることではないからだ。
前述のようにTerminalがエラーを返す場面は、一連の作業の中で何度か発生したが、そのたびに、何も考えずエラーをコピペしてChatGPTに教えを請うた。その結果として、筆者のMacBook ProにおいてMetal対応のWhisper.cppを実行する環境が整ったわけだ。
最終的に、Homebrew・Python・ffmpeg・Whisper.cpp・Metal対応ビルド・文字起こし・整形までを全自動で動作し、SRTファイルを吐き出すスクリプトをChatGPTに作ってもらった。Terminalを起動して、音声ファイルのディレクトリを指定して、コマンドを実行すれば、自動的にSRTファイルが完成する。
字幕としては合格点、だが……
気になるのは文字起こしの精度だ。子細に検証したわけではないが、Wordのトランスクリプトよりは、好印象を抱いている。
例えば、会話の音声には、ためらいの「えーと」や、同意の「ええ」「はい」といった、字幕には不要な文言も含まれている。また、吃音気味の発音や、言葉の言い直しといった箇所もある。
驚いたことに、Whisper.cppは、音声をそのまま文字起こしをするのではなく、「えーと」のような字幕として不要な部分は、完璧とは言えないまでも、あえて文字化しないように自動で調整してくれる。
また、今回はYouTube用の字幕なので、1行の文字数に制限がある。それも、「1行の文字数を25文字にしたい」とChatGPTに言えばそのようなスクリプトを用意してくれる。
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「ポンコツ」と呼ばれたM365 Copilotの逆転劇、GPT-5が転換点 活用の秘訣は“脱・プロンプト職人”
-
2
人間 vs. 人型ロボ、より多く作業をこなせるのは? 生配信で対決した結果…… 米企業
-
3
キオクシア社長「記録的な増収増益」 3カ月の売上収益1兆円、純利益は2990%増 好決算の背景は
-
4
「AIデータセンターの電力需要が急増」はホント? 発電大手Jパワー社長が明かした“報道との温度差”
-
5
伊藤忠商事や三菱ケミカルなど16社が参画 大手企業の「暗黙知」を活用する新プロジェクト
-
6
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
7
NEC社長が説く AI時代と新たな安全保障環境の到来で「ITサービスはこう変わる」
-
8
OpenAI、「ChatGPT」に個人向け資産管理機能 金融口座と連携
-
9
「最新のAI創薬ラボ」なのに会議室みたい!? 製薬大手がラブコール送る“異色のAI企業”による新拠点とは
-
10
Python 3.15に追加されるlazy importと内包表記でのアンパッキングについて調べてみた
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR