米Appleと米カリフォルニア大学サンタバーバラ校(UCSB)の研究者らは2月5日(現地時間)、マルチモーダル大規模言語モデル(MLLM)によるテキストベースの画像編集についての論文を発表し、その実装である「MGIE」(MLLM-Guided Image Editing)のコードをGitHubで公開した。また、Hugging Faceで試すこともできる。
MGIEは、テキストプロンプトで画像のトリミングやサイズ変更、フィルターの追加などの編集操作を行えるツール。画像全体の編集だけでなく、部分的な変更も可能だ。例えば、ピザの画像を「もっとヘルシーに」と命じるとミニトマトを追加したり、写真内のPCのディスプレイの画面を差し替えたりできる。
Hugging Faceのデモでは、編集したい画像をドロップして英語で命令を入力すると、結果が表示される。短い命令を、MGIEがより詳しい命令に変えてから実行する。本稿執筆現在、負荷が高くなっているからか、かなり時間がかかった(約13分)。
Appleはこれまで、iPhoneへのAI機能追加などは行ってきたが、生成AIツールのリリースなどはしていない。ティム・クックCEOは直近の業績発表で「今年後半にAI分野で進行中の取り組みの詳細を共有できる」と語った。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR