「AI多すぎ、何使えばいいか分からない……」を解決するAI「HuggingGPT」　文章入力だけで、適切な機械学習モデルを自動選択：Innovative Tech（2/2 ページ）

中国の浙江大学とMicrosoft Research Asiaに所属する研究者らは、大規模言語モデルと多数の機械学習モデルを連携し、ユーザーがテキストを入力するだけで、その内容を解決するための適切な機械学習を選んでくれるシステムを提案した研究報告を発表した。

[山下裕毅，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

前のページへ | 　　　　　　

HuggingGPTで何ができるか？

　以下、HuggingGPTで具体的に何ができるかを画像とともに示す。

　まずは、「1枚目の画像（片手でダンクするバスケット選手）のポーズと2枚目の画像（キックボードになる子ども）の説明文をもとに、新規に画像を生成してください」という文章と画像2枚を入力する。

　結果、2つの画像が統合した新たな画像（片手をあげて自転車になる少年）を生成した。この画像を生成するプロセスでは、ポーズ抽出モデル（openpose-control）を使ってダンク画像から全身のポーズ情報を抽出し、image-to-textモデル（openpose-textto-image）を使って画像内の少年の説明文を生成する。2つを統合して新たな画像を生成する。

HuggingGPTを使用した例（1）

　続けて「“宇宙飛行士が宇宙を歩いている”というタイトルの動画を生成してほしい」という文章を入力する。結果、月面みたいな場所で宇宙服に身を包んだ人が歩いている動画を音声とともに生成した。text-to-videoモデル（damo-vilab/text-to-video-ms1.7b）を使ってテキストからビデオを生成し、音声合成モデル（facebook/tts_transformer-es-css10）を用いてテキストから音声を生成したなどが説明されている。

HuggingGPTを使用した例（2）

　次に「これらの写真（A、B、C）の中にシマウマは何頭いるか教えてください」という文章を画像3枚とともに入力する。「画像A、B、Cには、合計4頭のシマウマがいる」と正解を言語で出力した。

　判断するために、まず画像からテキストに変換するモデル（nlpconnect／vit-gpt2-image-captioning）を使って、各画像のキャプションを生成する。次に、物体検出モデル（facebook／detr-resnet-101）を使って、画像内のシマウマを識別して位置を特定する。最後に、テキスト分類モデル（cardiffnlp／twitter-xlm-roberta-basesentiment）を使って、生成したキャプションと予測ボックスを分析し、画像にシマウマがいるかどうかを確認する。

HuggingGPTを使用した例（3）

　次に「画像の深度を推定してほしい」というテキストプロンプトとともに画像を入力する。結果、深度推定モデル（Intel／dpt-large）を使用して深度を予測したデプス画像を生成ｓｙる。このモデルは140万枚の画像に対してトレーニングされたもので、Dense Prediction Transformer（DPT）モデルである。

HuggingGPTを使用した例（4）

　最後に「画像のドキュメントを見て、購入金額を教えてください」というテキストプロンプトとともに画像を入力する。テキスト解析モデル（mpira／layoutlm-document-qa）で文章を分析した結果、買い取り金額が10億ドルであると出力した。

HuggingGPTを使用した例（5）

Source and Image Credits: Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, and Yueting Zhuang. HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace

「AI多すぎ、何使えばいいか分からない……」を解決するAI「HuggingGPT」　文章入力だけで、適切な機械学習モデルを自動選択：Innovative Tech（2/2 ページ）

HuggingGPTで何ができるか？

関連記事

関連リンク

「AI多すぎ、何使えばいいか分からない……」を解決するAI「HuggingGPT」 文章入力だけで、適切な機械学習モデルを自動選択：Innovative Tech（2/2 ページ）

HuggingGPTで何ができるか？

関連記事

関連リンク

「AI多すぎ、何使えばいいか分からない……」を解決するAI「HuggingGPT」　文章入力だけで、適切な機械学習モデルを自動選択：Innovative Tech（2/2 ページ）