OpenAI、ChatGPTにGPT-4oベースの画像生成機能 セレブの画像も生成可能
米OpenAIは3月25日(現地時間)、マルチモーダルモデル「GPT-4o」を活用した新たな画像生成機能を「ChatGPT」にネイティブ統合したと発表した。従来の「DALL・E」シリーズと比較して大幅に性能が向上しており、よりリアルな画像の生成、画像を入力とした編集・変換、プロンプト内のテキストを正確に画像へ反映する能力などが特徴という。
同日から、Plus、Pro、Team、無料プラン向けに展開され、EnterpriseおよびEduでも近日中に利用できるようになる予定だ。無料プランでの利用回数の制限などについてはまだ公表されていない。また、「Sora」でも使える。開発者向けのAPI経由の提供は、今後数週間以内に展開する。なお、従来の画像生成モデルDALL・Eは、ChatGPT内の専用GPTなどを通じて引き続き利用できる。
この新たな画像生成機能(発表文には名称は記載されていない)は、GPT-4oモデルのアーキテクチャ内に深く組み込まれており、GPT-4oの知識を活用することで、美しいだけでなく、文脈に即した微妙なニュアンスや実用的な側面を持つ画像を生成できるとしている。
DALL・Eよりも写真に近いリアルな画像を生成できる。また、既存の画像をベースに、関連性のある画像や修正を加えた画像を生成できる。詳細な指示を理解し、プロンプトに含まれるテキストを画像に正確に反映させる能力が向上した。
アーキテクチャ的には、DALL・EがDiffusion Model(拡散モデル)であるのに対し、GPT-4oの画像生成はAutoregressive Model(自己回帰モデル)として実装されている。この違いが、新たな機能と、それに伴うリスクの両方を生み出している。
OpenAIは、この新機能がもたらす潜在的なリスク(実在の人物画像の悪意ある改変、武器の設計図生成など)を認識しており、DALL・EやSoraの運用で培った経験と既存の安全インフラを基盤に対策を講じていると、System Card(PDF)で説明する。
System Cardによると、以下のような安全対策を行っているという。
- チャットモデルによる拒否:ChatGPTのチャットモデル自体が、ポリシーに違反するコンテンツ生成を指示するプロンプトを検知し、画像生成プロセスを開始させない
- プロンプトブロッキング:画像生成ツールが呼び出された後、入力されたテキストや画像を分類器が分析し、ポリシー違反と判断された場合は生成をブロックする
- 出力ブロッキング:画像が生成された後、CSAM(児童性的虐待コンテンツ)分類器や、安全ポリシーに特化して訓練されたマルチモーダル推論モニターなどが画像を評価し、違反コンテンツの出力を防ぐ
- 未成年者保護の強化:上記全ての対策を組み合わせ、18歳未満と推定されるユーザーに対しては、不適切な可能性のあるコンテンツ生成をさらに制限する
これらの安全対策の有効性は、外部のレッドチームによる手動テスト、自動化されたレッドチームテスト、実際の利用シナリオを想定したオフラインテストを通じて評価されている。
評価結果によると、システムによる緩和策とチャットモデルの拒否を組み合わせることで、ポリシー違反のコンテンツ生成を97%以上防ぎつつ、過剰な拒否をある程度抑えることができているとしている。
以下のような制限がある。
- リアルな子供が写った既存画像の編集は許可しない
- 生存中のアーティストの名前を指定してスタイルを模倣するリクエストは拒否
- セレブ(著名人)の画像生成は原則ブロックしないが、未成年や暴力的であるなどのポリシーに違反する場合は制限
- 性別、人種、肌の色に関する表現の多様性は改善が見られるものの、依然として課題は残る
- ディープフェイクや性的コンテンツなどは生成を制限・防止するが、芸術的、創造的、フィクションの文脈における暴力描写はある程度許容する
また、すべての生成画像に、C2PAメタデータを付与する。
OpenAIは、今回の画像生成機能のリリースを、AIシステムの安全性を確保するための厳格かつ反復的なアプローチの一環と位置付けている。実際の利用状況から学びつつ、今後も安全対策とポリシーを継続的に評価し、改善していく方針だ。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
JASRAC、「AI作曲・人間作詞」の曲は管理します――「人間の創作的寄与の有無」で線引き
-
2
公式がワンコーラス公開→AIで無断フルコーラス化、拡散 大原ゆい子氏「無職転生III」OPが被害
-
3
ChatGPTで広告表示へ 無料・Goプランが対象 6月22日にポリシー更新
-
4
「日本がいないと成り立たない」世界へ、フィジカルAIが導く独自の交渉力
-
5
「もはや宗教」のClaudeに焦るOpenAI 流出メモが暴いた覇権交代のリアル
-
6
“AIが電力使いすぎ問題” 「電力不足」懸念で、発電能力より深いボトルネックとは
-
7
データセンター建設に足りないのは「発電」ではなく「送電」 AI需要で電力消費26%増、Gartner予想
-
8
「Siri AI」の進化に「Geminiそのまま」の誤解――現地取材で見えた“新生Apple Intelligence”の全貌
-
9
サッカーW杯、偽ライブ配信サイトに注意 生成AIで詐欺が巧妙化 Acronisが警告
-
10
「ChatGPTのコネクタでつながるし、M365 Copilotいらなくない?」→有識者3人に聞いてみた 知らないと損するコンテキスト管理「Work IQ」の仕組み
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR