CxO Insights

OpenAI、Soraで「超知能の開発目指す」 どういう意味なのか?(1/2 ページ)

» 2024年03月07日 08時30分 公開
[湯川鶴章、エクサウィザーズ AI新聞編集長]
ExaWizards

 OpenAIが発表した動画生成AI「Sora」が話題だ。動画なので分かりやすいということもあるのだろうが、テレビの情報番組でも取り上げられ一般消費者の間でも話題になっている。

 しかし、OpenAIがSoraで何を目指しているのかが語られることがほんどない。Soraのリサーチペーパーを読めば、OpenAIがSoraで人間を超えた超知能の開発を目指していることが分かる。分かりやすく解説したい。

 まず、Soraの何がすごいのだろう。画像生成AIに「こんな画像を作って」と命令すれば、画像を生成してくれる。同様に「こんな動画を作って」と命令すれば、動画を作ってくれる。同じようなことではないのだろうか。動画は静止画のコマ送りである。静止画をたくさん生成すればいいだけなのではないか。

OpenAIが発表して話題になった「Sora」。プロンプトでは、以下のように指示されている。「スタイリッシュな女性が温かく輝くネオンとアニメーションの都市看板であふれる東京の通りを歩いています。女性は黒のレザージャケット、赤のロングドレス、黒のブーツを履いており、黒いバッグを持っています。サングラスを着用し、赤い口紅も塗っています。女性は自信に満ち溢れながら、カジュアルに歩いています。通りが湿って反射しているのがカラフルな光の鏡のような効果を生んでいます。多くの歩行者が通りを行き交っています」(画像:OpenAI公式Webサイトより)

東大の松尾豊教授「数年は無理」

 昨年5月に公開された動画の中で東京大学の松尾豊教授は「AIは根本的に動画を生成するのは苦手で、静止画を生成する完成度レベルで動画を生成するようになるまで数年以上かかる」と語っている。

 「多分これはしばらくそうだと思いますが、画像は作れるけど(同様のレベルで)映像は作れないんです。結構根本的なディープラーニングのアーキテクチャーの限界と関係していて、時間の扱い方とかがかなり苦手なんです」

 「静止画だと綺麗な絵になるんですが、これを動画にして時間方向が出てくると、いろんな依存関係があるので、いきなり扱い方が難しくなるんです」

 静止画だと一枚の絵を生成するだけで済む。その中には、人物やら風景やら、いろいろなものが写っている。これを動画にして、人物が歩き出すと、それにともなって風景も変化しなければならない。遠近法的な見え方も変化するだろうし、光の方向や風の向きも移動とともに少しずつ変化させなければならない。これら無数の変化を物理法則に則って矛盾なく計算して表現するのは、静止画とは比較にならないほど大変な作業なのだろう。

 「そのうちできるようになると思いますが、ただ結構時間がかかるんじゃないかと僕は予想しています。何十年単位みたいなそんなでもないですけど、数年から10年ぐらいはかかるかと」

 ところが今回、「Sora」が非常に完成度の高い動画生成に成功した。日本を代表するAIの専門家が数年以上かかるとみなしていたことが、数カ月で実現されたわけだ。これは相当画期的なことなのだろうと思う。

 なぜそこまで大変なことが、わずか数カ月で実現できたのだろうか。

 もちろんOpenAIの技術力がすごいのだろうが、とはいってもAIが進化するには大量のデータが不可欠。そのデータを集めるのに生成AIが関与したのではないか、という見方が広がっている。

動画生成AIの急速な進化、背景には合成データが?

 NVIDIAのシニア・リサーチ・サイエンティストのJim Fan氏は、ゲーム開発ツールのUnreal Engine5によって生成された映像とテキストのデータが、OpenAIの動画生成AI「Sora」の学習用の合成データになったのではないかとX(旧twitter)上で指摘している。

 Unreal Engineは、3Dゲームや動画コンテンツなどの制作に利用されるツールで、物体の落下の軌跡や光や風の影響など、物理法則に則った動きをする動画を簡単に製作できるようになっている。

 OpenAIが実際にUnreal Engineを利用したという発表はないが、Fan氏ら一部専門家は、動画の品質の高さから見て、Unreal Engineの最新バージョンであるUnreal Engine5が使われた可能性が高いとしている。

 例えば「テニスプレーヤーが返したボールがネットを超えて相手プレーヤーのコート内に着地した」というようなテキストをUnreal Engineに打ち込めば、Unreal Engineが物理法則に従ったボールの動きをする動画を作ってくれるようにしておく。これでテキストと呼応する動画のデータのペアが完成する。こんな感じでChatGPTのような言語生成AIを使ってテキストを無数に生成すれば、それに呼応する動画も無数にできるわけだ。

 そのテキストと動画のペアデータを大量に作って、Soraに学習させたのではないかというのがFan氏らの指摘だ。

 こうして人工的に作られた学習データのことを合成データと呼ぶ。データ生成した学習データが合成データ、ということで表記がややこしいが、元の英語は、合成はsynthesizeで、生成はgenerateになっている。

 合成データを学習データにする有効性に関しては、ここ2、3年、専門家の間でも意見が分かれていた。生成AIが作った、実際には存在しないデータを学習させれば、AIモデルが余計にハルシネーション(嘘をつく)する懸念があったわけだ。しかし最近では、合成データの有効性が徐々に認められてきているようだ。Microsoftが開発した大規模言語モデルOrca2も、インターネット上の現実のデータではなく、生成AIが作った合成データで学習したことで有名だ。

 今回Soraが短期間で大きく進化したのも、無数の合成データを用意できたことが要因の一つかもしれない。

       1|2 次のページへ

© エクサウィザーズ AI新聞