検索
コラム

プログラミング素人、ChatGPTで「YouTubeの字幕作成」自動化にトライ 動画制作を効率化できるか?(2/3 ページ)

プログラマーではない筆者が、YouTube動画の字幕作成を効率化するため、ChatGPTを活用して文字起こし環境の開発に挑んだ。その結果は。

Share
Tweet
LINE
Hatena

 環境構築の手順を次に示そう。

  • Homebrew(macOS用のパッケージ管理ツール)の導入
  • 音声変換ツールffmpegの導入(音声ファイルの最適化)
  • Pythonの導入
  • OpenAIの音声認識モデル(Speech-to-Text)であるWhisperをインストール
  • Apple製品のGPUにアクセスできるAPI「Metal」に最適化されたWhisper.cppのインストール

 このように手順をリストアップすると、いかにも大変そうだが、「手元のMacで行う方法で構築したい」と投げかけて、ChatGPTが組み込まれたWebブラウザ「ChatGPT Atlas」に表示されるコマンドをTerminalにコピペしてリターンキーを押す、という作業をくり返しただけだ。


「ChatGPT Atlas」に都度質問をぶつけつつ、返ってきたコマンドをTerminalにコピペして進めていく作業の繰り返し

 途中エラーが返ってきたら、そのエラーをそのままChatGPTにコピペして質問する。例えば、次のようなエラーが表示されたので、そのままコピペした。

zsh: command not found: #

zsh: command not found: pip

 すると、「このエラーは多くのMacで起きる『HomebrewのPythonとpipのパスが通っていない』問題が原因です。順を追って直しましょう」と返され、パスを通すための修正コマンドが1ステップずつ示される。その際、エラーが出る背景やコマンドの意味も同時に説明してくれる。なんと親切なことか。

自分で調べるな、ググるな

 この一連の作業を通して知り得たことがある。それはAIを使う際「自分で調べるな、ググるな」ということだ。前述のパスエラーのChatGPTによる説明には、「Homebrew経由のPythonについての注意書き」を記述したサイトが参考として表示されるのだが、筆者のようなプログラミング素人が見ても何のことかさっぱり分からない。

 今回のように、自分のPCに情報処理の環境を構築するような使い方においては、無力な自分をさらけ出し、ChatGPTに100%身を委ねることこそが目的を達成する近道だと思い知った。自分の目的は、タイムコード付き字幕ファイルを作ることであり、Terminal操作やPythonのスキルを身につけることではないからだ。

 前述のようにTerminalがエラーを返す場面は、一連の作業の中で何度か発生したが、そのたびに、何も考えずエラーをコピペしてChatGPTに教えを請うた。その結果として、筆者のMacBook ProにおいてMetal対応のWhisper.cppを実行する環境が整ったわけだ。

 最終的に、Homebrew・Python・ffmpeg・Whisper.cpp・Metal対応ビルド・文字起こし・整形までを全自動で動作し、SRTファイルを吐き出すスクリプトをChatGPTに作ってもらった。Terminalを起動して、音声ファイルのディレクトリを指定して、コマンドを実行すれば、自動的にSRTファイルが完成する。


タイムコード入りの「SRT形式」の字幕ファイル。YouTubeだけでなく、DaVinci Resolveなどの動画編集ソフトにも利用可能

字幕としては合格点、だが……

 気になるのは文字起こしの精度だ。子細に検証したわけではないが、Wordのトランスクリプトよりは、好印象を抱いている。

 例えば、会話の音声には、ためらいの「えーと」や、同意の「ええ」「はい」といった、字幕には不要な文言も含まれている。また、吃音気味の発音や、言葉の言い直しといった箇所もある。

 驚いたことに、Whisper.cppは、音声をそのまま文字起こしをするのではなく、「えーと」のような字幕として不要な部分は、完璧とは言えないまでも、あえて文字化しないように自動で調整してくれる。

 また、今回はYouTube用の字幕なので、1行の文字数に制限がある。それも、「1行の文字数を25文字にしたい」とChatGPTに言えばそのようなスクリプトを用意してくれる。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る