ChatGPTの「画像生成」、どう進化? 開発者に聞く “文字化け解消”の秘訣(1/2 ページ)
画像生成AIにおける「パラダイムシフト(従来の考え方や価値観が大きく変化すること)になる」――米OpenAIの画像生成AI「ChatGPT Images 2.0」について、開発に携わった同社リサーチャーのハタ・ケンジ氏はこのように胸を張る。
ChatGPT Images 2.0は、OpenAIが4月21日に発表したAIモデル。前世代から複数の性能を強化し、AIモデルの性能をユーザーが評価するWebサイト「Arena」(旧:LMArena)では、米Googleの画像生成AI「Nano Banana 2」を上回るスコアを獲得したという。ハタ氏に進化のポイントなどを聞いた。
ハタ氏がまず挙げるのが、文字を画像として出力する「テキストレンダリング」性能の強化だ。日本語などローマ字以外の文字体系にも対応しており、細かい文字も乱れなく生成できるようにした。
OpenAIの画像生成AIで初めて「Thinking機能」を備えたことも特徴だ。同機能は、出力の前に計画を立てることで、複雑なタスクに対応できるもの。Web検索でリアルタイムの情報を参照したり、1つの指示から複数枚の画像を生成したりできる。
ハタ氏によると、生成画像を自ら見直して再出力する機能も持つという。「画像を生成し、その画像が正しいかどうか(AIモデル自身が)チェックする。もしAIモデルが画像を正しくないと考えれば、もう一度同じ作業を繰り返す」(ハタ氏)
デモでは、英語で書かれた架空のメニュー表の画像を日本語表記にして見せた。Thinking機能により、画像内のテキストを読み込み、翻訳してから元の位置に戻すという複雑な作業ができるという。
「日光市(栃木県)を歩いているカップルの少しノスタルジックな画像を生成してください」と指示して出力した画像も披露した。ライティングや物の質感など「それほど長いプロンプトではないのに、細部に注意が払われている」(ハタ氏)とアピールした。
なお、安全性についても対策したとハタ氏。出力結果には、データの来歴情報を管理する「C2PA」などを組み込んでおり、AI生成であることを識別できるようにしているという。AIを活用したモニタリングもしており、OpenAIのポリシーに違反する場合には対応するとした。
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「ポンコツ」と呼ばれたM365 Copilotの逆転劇、GPT-5が転換点 活用の秘訣は“脱・プロンプト職人”
-
2
人間 vs. 人型ロボ、より多く作業をこなせるのは? 生配信で対決した結果…… 米企業
-
3
「AIデータセンターの電力需要が急増」はホント? 発電大手Jパワー社長が明かした“報道との温度差”
-
4
キオクシア社長「記録的な増収増益」 3カ月の売上収益1兆円、純利益は2990%増 好決算の背景は
-
5
伊藤忠商事や三菱ケミカルなど16社が参画 大手企業の「暗黙知」を活用する新プロジェクト
-
6
NEC社長が説く AI時代と新たな安全保障環境の到来で「ITサービスはこう変わる」
-
7
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
8
「邪魔すぎ」――LINE入力欄の“新AI機能”が不評 消し方は?
-
9
OpenAI、「ChatGPT」に個人向け資産管理機能 金融口座と連携
-
10
Python 3.15に追加されるlazy importと内包表記でのアンパッキングについて調べてみた
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR