Google、画像生成AI「nano-banana」発表 画像内の人やモノの一貫性保つ性能強化 編集も自然言語で自在に
米Googleは8月26日(現地時間)、新たな画像生成AIモデル「Gemini 2.5 Flash Image」(通称:nano-banana)を発表した。3月に発表した前モデル「Gemini 2.0 Flash」に比べ、複数の画像を生成する際に画像内の人やモノの一貫性保持する機能や、自然言語の指示による画像編集の性能などを強化したという。
一般的に画像生成AIは、1つの画像を基準として、画像内の人やキャラクター、モノを別の角度から見たバージョンを出力したり、異なる背景に配置したりする際、それらの外観を保つことが苦手とされる。
一方、Gemini 2.5 Flash Imageでは、この外観の一貫性を維持する性能を強化した。デモ画像では、チェスの駒を持つ女性が、別の画像ではカーレーサーの衣装を着たり、アーチェリーをしたりする姿が再現されている。
また、自然言語の指示による画像編集性能も高めた。画像の背景をぼかしたり、被写体のポーズを変えたり、モノクロ写真に色を付けたりするなど、さまざまな編集ができるという。他にも、ベッドルームの画像にスタンドライトの画像を追加し、ベッドの脇に置かれた様子を生成するなど、複数の入力画像を結合する操作も可能としている。
加えて、Googleの大規模言語モデル(LLM)「Gemini」を活用し、現実世界の物理的な認識能力も向上した。デモでは、2辺の長さを示した直角三角形の画像から、残りの1辺の長さを導き出す様子などが確認できる。
Gemini 2.5 Flash Imageは、リリース時点でGeminiのAPIと、Googleが提供する開発者向けのプラットフォーム「Google AI Studio」「Vertex AI」で利用できる。価格は、100万出力トークンあたり30ドルで、1枚の画像の出力につき0.039ドル(1290出力トークン)掛かる。その他の入出力については「Gemini 2.5 Flash」のAPI利用料金に準じる。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
農水省の“クソダサ”ポスター話題 「AIよりよっぽど良い」の声も 担当者に狙いを聞いた
-
2
AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか? 11のLLMで“ミルグラム実験” 抵抗できたのは……
-
3
Anthropicの営業はAIエージェントをこう使う! 日本法人メンバーが明かす手の内
-
4
AIで“ゲームキャラの出産二次創作”を何千回と生成する人も……ChatGPTの会話57万件から見えたヘビーな利用実態
-
5
「ウソだろ」アスクル社長がうなったAI活用 商談準備を2週間→3時間に “担当者のカオス”脱却へ
-
6
生成AIの請求書、人件費と並べる時代へ 国内5社のAI責任者が語る「トークンマネジメント」の現在地
-
7
「Claude Fable 5」が帰ってくる 「Mythos 5」含む輸出規制解除へ Anthropic発表
-
8
謎の「“日の丸AI”開発企業」正体明らかに ソフトバンク、NECら大手がそろって出資するワケ
-
9
任天堂、生成AIに対する考えを明かす 古川社長「ゲーム開発とAI技術はもともと近い」一方……
-
10
日産「AIで再び世界トップの開発力へ」、独自の統合型次世代AIDV基盤描く
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR