OpenAI、“視覚的思考パートナー”「ChatGPT Images 2.0」発表 Web検索結果を反映する画像生成も可能に
米OpenAIは4月21日(現地時間)、画像生成AI「ChatGPT Images 2.0」をリリースしたと発表した。単なる画像生成ツールではなく、ユーザーの視覚的な思考パートナーへと進化したとしている。
同社は「画像は装飾ではなく言語である」と位置付けており、新モデルは複雑な視覚タスクを処理し、即座に実用可能なビジュアルを生成できる点を特徴とする。従来モデルと比較して、詳細な指示への追従性やオブジェクト配置の正確性、高密度テキストの描画能力が大幅に向上したとしている。小さな文字やUI要素、複雑なレイアウトなど、従来苦手とされてきた要素も正確に再現できるという。
特に日本語をはじめとする非ラテン文字への対応が強化され、多言語で自然で一貫性のあるテキスト表現が可能になったとしている。単なる翻訳にとどまらず、ポスターや漫画、図解など、言語そのものがデザインの一部となるビジュアルを生成できる点を強調している。
また、写真の質感や光の表現、スタイル再現性も向上し、実写風からピクセルアート、マンガ調まで、幅広い表現で、指定したスタイルを忠実に反映できるようになったとしている。解像度は最大2Kに対応する。
新たに導入された「Thinking capabilities」(思考モード)では、画像生成前にWeb検索で最新情報を取得し、構図や要素の関係性を推論しながら生成を行う。知識カットオフは2025年12月に更新されており、図解や地図、教育用ビジュアルなど、正確性が求められる用途での活用を想定する。
このモードでは、情報の要約から文章生成、ビジュアル化までを一貫して行うエンドツーエンドの制作にも対応する。例えば、ストーリー用のテキストを生成し、それを基に構造化された図や画像へ変換することが可能だ。
さらに、1度の指示で一貫性を保った複数の画像(最大8~10枚)を同時生成できるようになった。これにより、同一キャラクターによる漫画の連続ページや、住宅の各部屋の改装案、異なるアスペクト比のSNS用画像セットなどをまとめて作成できる。
アスペクト比は横長の3:1から縦長の1:3まで対応し、バナーやプレゼン資料、モバイル画面など用途に応じた出力が可能だ。
OpenAIはこれらの進化により、画像生成モデルを単なるレンダリングツールから“視覚的な設計を行うシステム”へと発展させたとしている。
ChatGPT Images 2.0は、ChatGPT、Codex、APIの全ユーザー向けに提供を開始した。通常モードは全ユーザーが利用可能で、Web検索や高度な推論を伴う思考モードはChatGPT Plus、Pro、Business、Enterpriseなどの有料プランで利用できる。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
Appleが5年がかりで開発したセキュリティ対策を5日で突破 「Mythos」が見せつけた脆弱性攻撃の威力
-
2
GPT-5.5は最高性能ではないのに、なぜエンジニアが熱狂? カギは“最後まで自走する力”
-
3
人間 vs. 人型ロボ、より多く作業をこなせるのは? 生配信で対決した結果…… 米企業
-
4
「Gemini 3.5」登場 軽量モデルは一部3.1 Pro超え、高性能モデルは6月公開予定
-
5
GoogleのAIサブスク、最上位プランを値下げ 月額1万4500円の新プランも
-
6
Google、“動画版Nano Banana”こと「Gemini Omni」公開 会話で映像を生成・編集
-
7
人型ロボが働く様子を生配信中 荷物の仕分けを11時間超、Xでの表示回数は196万を突破 米企業
-
8
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
9
「ポンコツ」と呼ばれたM365 Copilotの逆転劇、GPT-5が転換点 活用の秘訣は“脱・プロンプト職人”
-
10
NTT、独自のAIモデル「tsuzumi 2」発表 “国産AI開発競争”に「負けられない」と島田社長
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR