検索

ニュース

2022年4月7日

最新AIの描く絵が「ヤバすぎ」「個展開ける」と話題　文章から画像を生成する「DALL・E 2」、米OpenAIが発表

米AI研究企業OpenAIは、文章から画像を生成するAI「DALL・E 2」を発表した。生成した画像を掲載するデモサイトも公開しており、その絵のクオリティーの高さにTwitter上では「最新のAIやばすぎる」など、驚きの声が出ている。

[松浦立樹，ITmedia] PC用表示関連情報

Share

Tweet

LINE

Hatena

AI活用のいまが分かる

　米AI研究企業OpenAIは4月6日（現地時間）、文章から画像を生成するAI「DALL・E 2」を発表した。2021年1月に同社が発表した「DALL・E」の後継に当たるAIで、生成した画像を掲載するデモサイトも公開している。Twitter上ではAIが生成した画像のクオリティーの高さに「最新のAIやばすぎる」「個展開ける」など、驚きの声が出ている。

　例えば「An astronaut riding a horse in a photorealistic style」（写真のようなリアルに描かれた、馬に乗る宇宙飛行士）では下記のような画像を生成する。

「An astronaut riding a horse in a photorealistic style」で生成した画像

　他にも「An astronaut riding a horse in the style of Andy Warhol」（画家のアンディ・ウォーホルさん風に描かれた、馬に乗る宇宙飛行士）や「An astronaut riding a horse as a pencil drawing」（鉛筆画で描かれた、馬に乗る宇宙飛行士）など、画風の違う同じ題材では、下記のような画像を生成する。

「An astronaut riding a horse in the style of Andy Warhol」で生成した画像

「An astronaut riding a horse as a pencil drawing」で生成した画像

　DALL・E 2が生成する画像は一つではなく、元の画像を参考に複数のバリエーションを生成できるという。すでに生成した画像についても、文章を変えることで編集が可能。物体の影や反射、テクスチャーを考慮し、画像に含まれる要素の追加や削除ができるとしている。

「An astronaut riding a horse in a photorealistic style」で生成した他の画像

文章を変えて犬の位置を変更した

　OpenAIは「DALL-E 2には、画像とそれを説明するためのテキストの関係を学習させた」とし「ランダムなドットのパターンから始まり、特定のイメージを認識すると、そのイメージに向かって徐々にパターンを変化させる『拡散』（diffusion）と呼ばれる処理を行っている」と説明。

　これによりDALL・Eと比べて、解像度を4倍にした他、より写実的な画像を生成できるようになったという。6日の発表時点ではAPIの公開などはしていない。今後はアダルトな画像や暴力的、政治的な画像などの生成に利用されないよう、安全対策の研究を続けていくとしている。

同じテキストから「DALL・E」と「DALL・E 2」が生成した画像

　OpenAIは今回の発表に併せて、DALL・EのInstagramアカウントも作成した。プロフィール欄には「アイデアをダイレクトメッセージで送ってもらえれば、それを実現する」と記載している。

DALL・EのInstagramアカウント

一覧ページへAI活用のいまが分かる「ITmedia AI＋」

関連記事

OpenAI、自然な言葉の説明からイラストを描くAI「DALL・E」発表
AI研究企業のOpenAIが、人間の言葉による説明を入力するとそれを画像として生成するAI「DALL・E」を発表した。例えば「チュチュを着て犬を散歩させる大根の赤ちゃん」というシュールな設定でも絵にする。
OpenAI、「GPT-3」より従順な改良版「InstructGPT」をAPIで提供開始
OpenAIは、自然言語モデル「GPT-3」の改良版「InstructGPT」を発表した。APIのデフォルトとして提供を開始した。RLHFで訓練した結果、ユーザーの意図に従う、より毒性の低い言語モデルになったとしている。
OpenAI、文章から画像を生成する新モデル「GLIDE」　前モデルよりも高品質な画像を生成
OpenAIの研究チームは、自然言語からフォトリアリスティックな画像を生成する機械学習の新しいモデル「GLIDE」を開発した。
テキストだけで、AIが3Dモデルを自動生成　米Googleなどの研究チームが開発
米Google Researchと米カリフォルニア大学バークレー校の研究チームは、自然言語の記述のみからデジタル3Dオブジェクトを生成するZero-shot learningを使ったアプローチを提案。3Dの学習データを必要とせずに形状や色、スタイルを柔軟に制御する。
言語モデル「GPT-3」、APIの人数制限を撤廃　誰でもすぐに利用可能に
　米AI研究企業のOpenAIは、大規模自然言語処理モデル「GPT-3」のAPIを利用する際の人数制限を撤廃し、誰でもすぐに利用できるようにしたと発表。

関連リンク

Copyright © ITmedia, Inc. All Rights Reserved.