米AI研究企業OpenAIは1月5日(現地時間)、人間の自然な言葉による説明を入力するとそれを画像として描くAI「DALL・E」を発表した。例えば下の画像は「チュチュを着て犬を散歩させている大根の赤ちゃんのイラスト(an illustration of a baby daikon radish in a tutu walking a dog)」という説明をDALL・Eが画像化したものだ。
OpenAIの説明によると、DALL・Eは「テキストと画像のペアのデータセットを使って、テキストの説明から画像を生成するようトレーニングされた120億パラメータ版のGPT-3」という。DALL・Eという名称は、アーティストのサルバドール・ダリとPixarの映画「ウォーリー」の主人公のロボットの名前を合成したものとのこと。
GPT-3は、ネット上のテキストの次の単語を予測するためだけに訓練されたTransformerベースの自己回帰言語モデル。1750億個のパラメータで動作し、いくつかのキーワードを与えると人間が書いたような文章を生成する。DALL・Eはテキストの代わりに画像を生成する。
架空の画像の生成の他、「写真の猫のスケッチ」という入力で写真の手書きスケッチのような画像も生成する。
同社はまた、ネット上から集めた画像とそのキャプションのペア4億点でトレーニングしたマルチモーダルモデル「CLIP」も発表した。こちらはGPT-2、GPT-3の言語モデルに似た「ゼロショット学習」を採用している。ゼロショット学習は、学習と推論の2つのステップを経ることで“見たことのないもの”を予測できるようにする技術。詳細はこちら。
OpenAIは、DALL・Eのように生成モデルを含む技術は重大な社会的影響を与える可能性があることを認識しているとしている。将来的には、こうしたモデルが特定の職業に与える経済的影響やモデル出力の偏りの問題、倫理的課題などを分析していくという。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR