「GPT-4o」はなんて読む？　女性の声はスカーレット・ヨハンソン（her）似？

» 2024年05月14日 06時51分公開

[ITmedia]

　米OpenAIは5月13日（現地時間）、生成AI「GPT」の新たなモデル「GPT-4o」を発表した。このモデルの詳細は別記事にゆずり、本稿ではモデル名の読み方とその由来、「声」についてのうわさを紹介しよう。

GPT-4o発表イベントでiPhone搭載のGPT-4oと会話するミラ・ムラティCTO（左）

oはomniのo

　GPT-4oは「ジーピーティーフォーオー」と読む。oは「omni」のo。omni（オムニ）は「オムニバス」「オムニチャンネル」などの日本語にもなっているように、すべて、全体、全方位などを表す言葉だ。

　GPT-4oが、テキスト、音声、画像の任意の組み合わせを入力として受け入れ、テキスト、音声、画像の任意の組み合わせの出力を生成するマルチモーダルなAIであることを表している。

女性の声は映画「Her」に似ている？

　GPT-4o発表のライブストリームデモでは、OpenAIのミラ・ムラティCTO（最高技術責任者）とエンジニアがiPhoneに搭載されたGPT-4oと会話する形で機能を紹介した。

　そこで流れたGPT-4oの“声”は女性のもので、2014年のアカデミー賞脚本賞を獲得した映画「her／世界でひとつの彼女」に登場する人工知能OS「サマンサ」の声によく似ている。この声は俳優のスカーレット・ヨハンソンのものだ。以下の「her」の公式トレーラーと聴き比べられたい。

　デモではこの声の由来についての説明はなかったが、ライブ配信終了直後、サム・アルトマンCEOはXに「her」とだけポストした。

　アルトマン氏は以前、イベントに登壇した際、好きな映画は「her」だと語っていた。

Dreamforce 2023で「好きな映画は何？」と尋ねられ、「herが好き」と語るサム・アルトマンCEO

　OpenAIは、15秒分の声のデータがあれば本人そっくりな音声を生成できる生成AIモデル「Voice Engine」を発表している。同じ声を複数言語に吹き替える機能もあるので、GPT-4oの日本語音声もスカーレット・ヨハンソン似な声になるのかもしれない。

　この声が実際にスカーレット・ヨハンソンのデータに基づくものなのかも、その場合に同氏の許可を得ているのかも不明だ。

　人気声優や歌手の声を無断で使う「AIカバー」は日本でも問題になっている。

「GPT-4o」発表　頭一つ抜けた性能をChatGPT無料版にも展開　音声と視覚を備えて“自然な対話”可能に【追記済】
米OpenAIが、生成AI「GPT」の新たなモデル「GPT-4o」を発表した。テキストはもちろん、音声や画像、映像での入力、音声での応答に対応し、アプリ版の「ChatGPT」ではユーザーと自然に対話できるようになった。開発者向けにAPIとして提供する他、同日からChatGPT内で利用できるように展開を始める。
OpenAI、Google I/O前日に何かを発表へ　「GPT-5でも検索でもないよ」とアルトマンCEO
OpenAIは、5月13日午前10時に「ChatGPTとGPT-4に関する更新」についてのライブ配信を行うと発表した。アルトマンCEOは「GPT-5でも検索でもない」と言うが、この日時はGoogleの年次カンファレンス基調講演の24時間前に当たる。
OpenAIの「Voice Engine」は15秒分の声データを元に本人そっくりに喋る
OpenAIは、人の声を再現する生成AIモデル「Voice Engine」を発表した。動画生成の「Sora」同様「重大なリスク」があることを認識しており、広範囲に提供は（当面は）しない。
OSの声に恋する「her／世界でひとつの彼女」にアカデミー脚本賞
人工知能OSの声に恋する男を描くスパイク・ジョーンズ監督・脚本作品「her／世界でひとつの彼女」がアカデミー脚本賞に。