プログラミング素人、ChatGPTで「YouTubeの字幕作成」自動化にトライ 動画制作を効率化できるか?(3/3 ページ)
ただ、同音異義語の間違いはどうしても発生する。ChatGPTによると「Whisper文字起こしの“最大の弱点”が同音異義語の誤変換」だという。また、用語の不統一や表記揺れなどもあり、このあたりは、別途校閲ツールを用意して修正するなどの作業が必要になる。
ここまでの作業で、一応は、字幕用のSRTファイルが完成した。ただし、誤変換の問題は、YouTube動画の管理ツール「YouTube Studio」の字幕編集機能で動画を再生しながら手直ししているのが現状だ。
手作業による修正に多くの時間を食われている現状をそのままにしていたのでは、作業効率が悪すぎる。校正や校閲も可能な限り自動化したい。
校正や校閲も自動化したい
そこで次のステップとして考えているのが、ナレッジベースアプリ「Obsidian」による辞書(ルールベース)を利用した“専門用語に基づく誤変換”の自動修正だ。幸い「考えるラジオ」は、環境問題、原発関連、さらに、閑話休題として音楽や電気自動車の話題と、テーマを絞った形で各番組を収録しているので、各テーマに沿った辞書を構築すれば、校正や校閲もある程度自動化できるはずだ。
例えば、「塩積みの核燃料」を「使用済みの核燃料」、「再生工場」を「再処理工場」といった明らかな誤変換が自動で訂正されるだけでも、かなりの省力化になる。実際、ChatGPTもObsidianでのローカル校閲について、「Whisperの文字起こしとの相性が非常に良いです」と返答してきた。
ただし、ルールベースだと、完全一致の用語については確実な修正は可能だが、用語の辞書を構築しなければならない。もちろん、これもChatGPTが手伝ってくれるのだが、辞書から漏れた言葉の誤変換が残ることになる。
そこで、ルールベースではなく、「LLM(大規模言語モデル)で文脈から判断した上での校正・校閲はできないのか?」とChatGPTに聞いたら、「可能。最終的にはLLMでポストプロセス(後処理)するのが“最強”であり、本命はLLMによるコンテキスト理解+校正」だという。
現状では、文字起こしからのSRTファイル作成に止まっているが、ChatGPTが言うように、LLMを利用したコンテキストを理解しての修正が自動化できたらさらなる省力化が可能になる。
今後もそのような仕組みの構築をChatGPTと二人三脚で進め、機会があれば、その過程や校正の精度を今回のような記事として報告できればうれしく思う。
本稿では、動画の字幕作成を実施する環境を実例としてあげた。ただ、この仕組みは動画の字幕だけでなく、インタビューや議事録の文字起こしなど、会話の音声を文字に変換する場面で活用可能だ。ChatGPTに「テキストファイルで書き出して」と頼むだけで良い。この先、この仕組みを進化させ、コンテキストを理解した上での自動校正・校閲が実現すると、記録としての音声録音を多用するビジネスパーソンにとって心強いツールになるのではないだろうか。
著者プロフィール
山崎潤一郎
音楽制作業の傍らライターとしても活動。クラシックジャンルを中心に、多数のアルバム制作に携わる。Pure Sound Dogレコード主宰。ライターとしては、講談社、KADOKAWA、ソフトバンククリエイティブなどから多数の著書を上梓している。また、鍵盤楽器アプリ「Super Manetron」「Pocket Organ C3B3」「Alina String Ensemble」などの開発者。音楽趣味はプログレ。Twitter ID: @yamasakiTesla
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「ポンコツ」と呼ばれたM365 Copilotの逆転劇、GPT-5が転換点 活用の秘訣は“脱・プロンプト職人”
-
2
人間 vs. 人型ロボ、より多く作業をこなせるのは? 生配信で対決した結果…… 米企業
-
3
キオクシア社長「記録的な増収増益」 3カ月の売上収益1兆円、純利益は2990%増 好決算の背景は
-
4
「AIデータセンターの電力需要が急増」はホント? 発電大手Jパワー社長が明かした“報道との温度差”
-
5
伊藤忠商事や三菱ケミカルなど16社が参画 大手企業の「暗黙知」を活用する新プロジェクト
-
6
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
7
NEC社長が説く AI時代と新たな安全保障環境の到来で「ITサービスはこう変わる」
-
8
OpenAI、「ChatGPT」に個人向け資産管理機能 金融口座と連携
-
9
「最新のAI創薬ラボ」なのに会議室みたい!? 製薬大手がラブコール送る“異色のAI企業”による新拠点とは
-
10
Python 3.15に追加されるlazy importと内包表記でのアンパッキングについて調べてみた
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR