ITmedia NEWS > 企業・業界動向 >
ITmedia AI+ AI活用のいまが分かる

Apple、UCSBと共同でマルチモーダルLLM採用のテキストベースの画像編集「MGIE」発表

» 2024年02月08日 10時03分 公開
[ITmedia]

 米Appleと米カリフォルニア大学サンタバーバラ校(UCSB)の研究者らは2月5日(現地時間)、マルチモーダル大規模言語モデル(MLLM)によるテキストベースの画像編集についての論文を発表し、その実装である「MGIE」(MLLM-Guided Image Editing)のコードをGitHubで公開した。また、Hugging Faceで試すこともできる

 MGIEは、テキストプロンプトで画像のトリミングやサイズ変更、フィルターの追加などの編集操作を行えるツール。画像全体の編集だけでなく、部分的な変更も可能だ。例えば、ピザの画像を「もっとヘルシーに」と命じるとミニトマトを追加したり、写真内のPCのディスプレイの画面を差し替えたりできる。

 mgie MGIEでの画像編集例(画像:論文より)

 Hugging Faceのデモでは、編集したい画像をドロップして英語で命令を入力すると、結果が表示される。短い命令を、MGIEがより詳しい命令に変えてから実行する。本稿執筆現在、負荷が高くなっているからか、かなり時間がかかった(約13分)。

 mgie 2 Hugging Faceのデモ

 Appleはこれまで、iPhoneへのAI機能追加などは行ってきたが、生成AIツールのリリースなどはしていない。ティム・クックCEOは直近の業績発表で「今年後半にAI分野で進行中の取り組みの詳細を共有できる」と語った。

Copyright © ITmedia, Inc. All Rights Reserved.