ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

「AI多すぎ、何使えばいいか分からない……」を解決するAI「HuggingGPT」 文章入力だけで、適切な機械学習モデルを自動選択Innovative Tech(2/2 ページ)

» 2023年04月07日 08時00分 公開
[山下裕毅ITmedia]
前のページへ 1|2       

HuggingGPTで何ができるか?

 以下、HuggingGPTで具体的に何ができるかを画像とともに示す。

 まずは、「1枚目の画像(片手でダンクするバスケット選手)のポーズと2枚目の画像(キックボードになる子ども)の説明文をもとに、新規に画像を生成してください」という文章と画像2枚を入力する。

 結果、2つの画像が統合した新たな画像(片手をあげて自転車になる少年)を生成した。この画像を生成するプロセスでは、ポーズ抽出モデル(openpose-control)を使ってダンク画像から全身のポーズ情報を抽出し、image-to-textモデル(openpose-textto-image)を使って画像内の少年の説明文を生成する。2つを統合して新たな画像を生成する。

HuggingGPTを使用した例(1)

 続けて「“宇宙飛行士が宇宙を歩いている”というタイトルの動画を生成してほしい」という文章を入力する。結果、月面みたいな場所で宇宙服に身を包んだ人が歩いている動画を音声とともに生成した。text-to-videoモデル(damo-vilab/text-to-video-ms1.7b)を使ってテキストからビデオを生成し、音声合成モデル(facebook/tts_transformer-es-css10)を用いてテキストから音声を生成したなどが説明されている。

HuggingGPTを使用した例(2)

 次に「これらの写真(A、B、C)の中にシマウマは何頭いるか教えてください」という文章を画像3枚とともに入力する。「画像A、B、Cには、合計4頭のシマウマがいる」と正解を言語で出力した。

 判断するために、まず画像からテキストに変換するモデル(nlpconnect/vit-gpt2-image-captioning)を使って、各画像のキャプションを生成する。次に、物体検出モデル(facebook/detr-resnet-101)を使って、画像内のシマウマを識別して位置を特定する。最後に、テキスト分類モデル(cardiffnlp/twitter-xlm-roberta-basesentiment)を使って、生成したキャプションと予測ボックスを分析し、画像にシマウマがいるかどうかを確認する。

HuggingGPTを使用した例(3)

 次に「画像の深度を推定してほしい」というテキストプロンプトとともに画像を入力する。結果、深度推定モデル(Intel/dpt-large)を使用して深度を予測したデプス画像を生成syる。このモデルは140万枚の画像に対してトレーニングされたもので、Dense Prediction Transformer(DPT)モデルである。

HuggingGPTを使用した例(4)

 最後に「画像のドキュメントを見て、購入金額を教えてください」というテキストプロンプトとともに画像を入力する。テキスト解析モデル(mpira/layoutlm-document-qa)で文章を分析した結果、買い取り金額が10億ドルであると出力した。

HuggingGPTを使用した例(5)

Source and Image Credits: Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, and Yueting Zhuang. HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace



前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.