米AI研究企業OpenAIは4月6日(現地時間)、文章から画像を生成するAI「DALL・E 2」を発表した。2021年1月に同社が発表した「DALL・E」の後継に当たるAIで、生成した画像を掲載するデモサイトも公開している。Twitter上ではAIが生成した画像のクオリティーの高さに「最新のAIやばすぎる」「個展開ける」など、驚きの声が出ている。
例えば「An astronaut riding a horse in a photorealistic style」(写真のようなリアルに描かれた、馬に乗る宇宙飛行士)では下記のような画像を生成する。
他にも「An astronaut riding a horse in the style of Andy Warhol」(画家のアンディ・ウォーホルさん風に描かれた、馬に乗る宇宙飛行士)や「An astronaut riding a horse as a pencil drawing」(鉛筆画で描かれた、馬に乗る宇宙飛行士)など、画風の違う同じ題材では、下記のような画像を生成する。
DALL・E 2が生成する画像は一つではなく、元の画像を参考に複数のバリエーションを生成できるという。すでに生成した画像についても、文章を変えることで編集が可能。物体の影や反射、テクスチャーを考慮し、画像に含まれる要素の追加や削除ができるとしている。
OpenAIは「DALL-E 2には、画像とそれを説明するためのテキストの関係を学習させた」とし「ランダムなドットのパターンから始まり、特定のイメージを認識すると、そのイメージに向かって徐々にパターンを変化させる『拡散』(diffusion)と呼ばれる処理を行っている」と説明。
これによりDALL・Eと比べて、解像度を4倍にした他、より写実的な画像を生成できるようになったという。6日の発表時点ではAPIの公開などはしていない。今後はアダルトな画像や暴力的、政治的な画像などの生成に利用されないよう、安全対策の研究を続けていくとしている。
OpenAIは今回の発表に併せて、DALL・EのInstagramアカウントも作成した。プロフィール欄には「アイデアをダイレクトメッセージで送ってもらえれば、それを実現する」と記載している。
OpenAI、自然な言葉の説明からイラストを描くAI「DALL・E」発表
OpenAI、「GPT-3」より従順な改良版「InstructGPT」をAPIで提供開始
OpenAI、文章から画像を生成する新モデル「GLIDE」 前モデルよりも高品質な画像を生成
テキストだけで、AIが3Dモデルを自動生成 米Googleなどの研究チームが開発
言語モデル「GPT-3」、APIの人数制限を撤廃 誰でもすぐに利用可能にCopyright © ITmedia, Inc. All Rights Reserved.
Special
PR