Google「Gemini」の画像生成がハイレベルと話題に チャット1つで写真のアングルを違和感なく変更
米Googleの大規模言語モデル「Gemini 2.0 Flash」が画像生成に対応した。テキストに加え画像の入力が可能で、例えば「この画像のアングルを変えて」「この画像に日本語で文字入れして」という指示にも対応する。
米Googleの大規模言語モデル「Gemini 2.0 Flash」が、3月12日(現地時間)に画像生成に対応した。テキストに加え画像の入力が可能で、例えば「この画像のアングルを変えて」「この画像に日本語で文字入れして」という指示にも対応する。XなどのSNSでは、出力物の精度の高さに感心する声が相次いでいる。
リリース後から、Xではこの画像生成機能を試したユーザーの投稿が続出。画像内の物体の削除/追加やカラーリング、背景の変更などがチャットによる短い指示でできたとの報告が出ている。他にも正面を向いている人物を横から映すといったカメラアングルの移動や、画像内に日本語を正確に入力ができたとする投稿も。その手軽さと性能から「衝撃的」「マンガ制作に使えるのでは」などの意見も見られる。
記者が試したところ、画像内の物体の削除や日本語の追加といった編集が、チャットの指示でできた。カメラアングルの変更も、ゆがみが生じるケースもあったが、大幅な移動に成功。加えて、ラーメンの器を空にした後、器の底に日本語を印刷するといった編集もできた。
Gemini 2.0 Flashの画像生成機能は、開発者向けにリリースしたもので、正式版ではない。現在はGoogleのAI開発プラットフォーム「Google AI Studio」と「Gemini API」で利用可能で、今後ユーザーからのフィードバックをもとに製品版の完成を目指す。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
Google、「Gemini」アップデート パーソナライズ機能など多数
Googleは、AIチャットbot「Gemini」の大幅アップデートを発表した。検索履歴と接続する「Personalization」などの新機能や、無料ユーザーが利用できる機能の拡大などを含む。
Google DeepMind、「Gemini Robotics」でAIを現実世界へ
Google DeepMindは、物理的な世界のロボットの行動を制御するよう設計されたAIモデル「Gemini Robotics」を発表した。「Gemini 2.0」を基盤とする。学習していない未知の状況や物体、複雑な指示、新しい環境にも対応できるロボットを目指す。
Google、オープンなAIモデル「Gemma 3」リリース マルチモーダル対応 モデルサイズは4種類
米Googleは、オープンな大規模言語モデル「Gemma 3」をリリースした。新しくマルチモーダルに対応。軽量かつ高性能をうたっており、スマートフォンやノートPCなどエッジデバイス上でも動作するという。
Google検索、「AIによる概要」に「Gemini 2.0」導入、「AI Mode」実験開始
Googleは、Google検索の実験的機能「AI Overview」(日本では「AIによる概要」)に、「Gemini 2.0」を導入し、「AI Mode」を追加した。まずは米国で試験的に提供を開始する。
AIが100%突破できない「私はロボットではありません」 海外チームによる新CAPTCHA AI生成の“錯視画像”利用
オーストラリアのニューサウスウェールズ大学やシンガポールの南洋理工大学に所属する研究者らは、AIが生成した錯視画像を利用する新しいセキュリティ対策を提案した研究報告を発表した。




