検索
速報

OpenAI、“視覚的思考パートナー”「ChatGPT Images 2.0」発表 Web検索結果を反映する画像生成も可能に

OpenAIは、画像生成AI「ChatGPT Images 2.0」をリリースした。新機能「Thinking capabilities」(思考モード)により、Web検索と推論が可能になり、図解や地図の正確性が向上。日本語を含む多言語テキストの描画能力も大幅に強化された。1度の指示で最大10枚の連続画像を生成でき、実写からマンガまで幅広い用途に対応する。

Share
Tweet
LINE
Hatena

 米OpenAIは4月21日(現地時間)、画像生成AI「ChatGPT Images 2.0」をリリースしたと発表した。単なる画像生成ツールではなく、ユーザーの視覚的な思考パートナーへと進化したとしている。

 images 1

 同社は「画像は装飾ではなく言語である」と位置付けており、新モデルは複雑な視覚タスクを処理し、即座に実用可能なビジュアルを生成できる点を特徴とする。従来モデルと比較して、詳細な指示への追従性やオブジェクト配置の正確性、高密度テキストの描画能力が大幅に向上したとしている。小さな文字やUI要素、複雑なレイアウトなど、従来苦手とされてきた要素も正確に再現できるという。

 images 2
日本語のマンガのような画像例(画像:OpenAI)

 特に日本語をはじめとする非ラテン文字への対応が強化され、多言語で自然で一貫性のあるテキスト表現が可能になったとしている。単なる翻訳にとどまらず、ポスターや漫画、図解など、言語そのものがデザインの一部となるビジュアルを生成できる点を強調している。

 また、写真の質感や光の表現、スタイル再現性も向上し、実写風からピクセルアート、マンガ調まで、幅広い表現で、指定したスタイルを忠実に反映できるようになったとしている。解像度は最大2Kに対応する。

 新たに導入された「Thinking capabilities」(思考モード)では、画像生成前にWeb検索で最新情報を取得し、構図や要素の関係性を推論しながら生成を行う。知識カットオフは2025年12月に更新されており、図解や地図、教育用ビジュアルなど、正確性が求められる用途での活用を想定する。

 このモードでは、情報の要約から文章生成、ビジュアル化までを一貫して行うエンドツーエンドの制作にも対応する。例えば、ストーリー用のテキストを生成し、それを基に構造化された図や画像へ変換することが可能だ。

 さらに、1度の指示で一貫性を保った複数の画像(最大8〜10枚)を同時生成できるようになった。これにより、同一キャラクターによる漫画の連続ページや、住宅の各部屋の改装案、異なるアスペクト比のSNS用画像セットなどをまとめて作成できる。

 アスペクト比は横長の3:1から縦長の1:3まで対応し、バナーやプレゼン資料、モバイル画面など用途に応じた出力が可能だ。

 OpenAIはこれらの進化により、画像生成モデルを単なるレンダリングツールから“視覚的な設計を行うシステム”へと発展させたとしている。

 ChatGPT Images 2.0は、ChatGPT、Codex、APIの全ユーザー向けに提供を開始した。通常モードは全ユーザーが利用可能で、Web検索や高度な推論を伴う思考モードはChatGPT Plus、Pro、Business、Enterpriseなどの有料プランで利用できる。


Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る