米OpenAIは3月25日(現地時間)、マルチモーダルモデル「GPT-4o」を活用した新たな画像生成機能を「ChatGPT」にネイティブ統合したと発表した。従来の「DALL・E」シリーズと比較して大幅に性能が向上しており、よりリアルな画像の生成、画像を入力とした編集・変換、プロンプト内のテキストを正確に画像へ反映する能力などが特徴という。
同日から、Plus、Pro、Team、無料プラン向けに展開され、EnterpriseおよびEduでも近日中に利用できるようになる予定だ。無料プランでの利用回数の制限などについてはまだ公表されていない。また、「Sora」でも使える。開発者向けのAPI経由の提供は、今後数週間以内に展開する。なお、従来の画像生成モデルDALL・Eは、ChatGPT内の専用GPTなどを通じて引き続き利用できる。
この新たな画像生成機能(発表文には名称は記載されていない)は、GPT-4oモデルのアーキテクチャ内に深く組み込まれており、GPT-4oの知識を活用することで、美しいだけでなく、文脈に即した微妙なニュアンスや実用的な側面を持つ画像を生成できるとしている。
DALL・Eよりも写真に近いリアルな画像を生成できる。また、既存の画像をベースに、関連性のある画像や修正を加えた画像を生成できる。詳細な指示を理解し、プロンプトに含まれるテキストを画像に正確に反映させる能力が向上した。
アーキテクチャ的には、DALL・EがDiffusion Model(拡散モデル)であるのに対し、GPT-4oの画像生成はAutoregressive Model(自己回帰モデル)として実装されている。この違いが、新たな機能と、それに伴うリスクの両方を生み出している。
OpenAIは、この新機能がもたらす潜在的なリスク(実在の人物画像の悪意ある改変、武器の設計図生成など)を認識しており、DALL・EやSoraの運用で培った経験と既存の安全インフラを基盤に対策を講じていると、System Card(PDF)で説明する。
System Cardによると、以下のような安全対策を行っているという。
これらの安全対策の有効性は、外部のレッドチームによる手動テスト、自動化されたレッドチームテスト、実際の利用シナリオを想定したオフラインテストを通じて評価されている。
評価結果によると、システムによる緩和策とチャットモデルの拒否を組み合わせることで、ポリシー違反のコンテンツ生成を97%以上防ぎつつ、過剰な拒否をある程度抑えることができているとしている。
以下のような制限がある。
また、すべての生成画像に、C2PAメタデータを付与する。
OpenAIは、今回の画像生成機能のリリースを、AIシステムの安全性を確保するための厳格かつ反復的なアプローチの一環と位置付けている。実際の利用状況から学びつつ、今後も安全対策とポリシーを継続的に評価し、改善していく方針だ。
OpenAI、「高度な音声モード」に割り込み減などの新機能
ChatGPT利用と孤独感の関係性──OpenAIとMITが共同研究結果を発表
“暖かみのある会話”を実現――OpenAIの新言語モデル「GPT-4.5」は何が変わったのか?
OpenAIの動画生成AI「Sora」、ついに一般提供開始 「ChatGPT」課金ユーザーなら追加負担なし
OpenAI、DALL・E 3で生成した画像にCP2Aの電子透かし追加Copyright © ITmedia, Inc. All Rights Reserved.