ChatGPTの「画像生成」、どう進化? 開発者に聞く “文字化け解消”の秘訣(1/2 ページ)
画像生成AIにおける「パラダイムシフト(従来の考え方や価値観が大きく変化すること)になる」――米OpenAIの画像生成AI「ChatGPT Images 2.0」について、開発に携わった同社リサーチャーのハタ・ケンジ氏はこのように胸を張る。
ChatGPT Images 2.0は、OpenAIが4月21日に発表したAIモデル。前世代から複数の性能を強化し、AIモデルの性能をユーザーが評価するWebサイト「Arena」(旧:LMArena)では、米Googleの画像生成AI「Nano Banana 2」を上回るスコアを獲得したという。ハタ氏に進化のポイントなどを聞いた。
ハタ氏がまず挙げるのが、文字を画像として出力する「テキストレンダリング」性能の強化だ。日本語などローマ字以外の文字体系にも対応しており、細かい文字も乱れなく生成できるようにした。
OpenAIの画像生成AIで初めて「Thinking機能」を備えたことも特徴だ。同機能は、出力の前に計画を立てることで、複雑なタスクに対応できるもの。Web検索でリアルタイムの情報を参照したり、1つの指示から複数枚の画像を生成したりできる。
ハタ氏によると、生成画像を自ら見直して再出力する機能も持つという。「画像を生成し、その画像が正しいかどうか(AIモデル自身が)チェックする。もしAIモデルが画像を正しくないと考えれば、もう一度同じ作業を繰り返す」(ハタ氏)
デモでは、英語で書かれた架空のメニュー表の画像を日本語表記にして見せた。Thinking機能により、画像内のテキストを読み込み、翻訳してから元の位置に戻すという複雑な作業ができるという。
「日光市(栃木県)を歩いているカップルの少しノスタルジックな画像を生成してください」と指示して出力した画像も披露した。ライティングや物の質感など「それほど長いプロンプトではないのに、細部に注意が払われている」(ハタ氏)とアピールした。
なお、安全性についても対策したとハタ氏。出力結果には、データの来歴情報を管理する「C2PA」などを組み込んでおり、AI生成であることを識別できるようにしているという。AIを活用したモニタリングもしており、OpenAIのポリシーに違反する場合には対応するとした。
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
人工知能学会「AIは人間を代替しない」 社会実装へ4提言 安保・著作権にも言及
-
2
「ChatGPTのコネクタでつながるし、M365 Copilotいらなくない?」→有識者3人に聞いてみた 知らないと損するコンテキスト管理「Work IQ」の仕組み
-
3
Sakana AI、初の商用サービスはリサーチ特化 「Deep Research」との違いは? 後発で“ベンチマークも追わない”ワケ
-
4
ChatGPT vs. Google検索──どっちで調べるのが学習効果が高い? 8日間の実験で検証した研究
-
5
Sakana AI、初の商用プロダクト「Marlin」リリース その実力は?【出力レポート全文掲載】
-
6
データセンター建設に足りないのは「発電」ではなく「送電」 AI需要で電力消費26%増、Gartner予想
-
7
データセンターの見回り業務をロボットに 自在に伸びるカメラでくまなく点検できる「ugo mini」
-
8
“ChatGPTアダルトモード”実現なるか──適切なエロ&グロコンテンツの生成方法を模索中とOpenAI
-
9
「Claude Fable 5」「Mythos 5」全面停止 米政府の指令により Anthropicは早期復旧を宣言
-
10
生成AI台頭、経営コンサルの倒産・廃業が過去最多ペース “補助金頼み”限界に
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR