中国の浙江大学とMicrosoft Research Asiaに所属する研究者らが発表した論文「HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace」は、大規模言語モデル（LLM）と多数の機械学習モデルを連携し、ユーザーがテキストを入力するだけで、その内容を解決するための適切な機械学習を選んでくれるシステムを提案した研究報告である。

　今回はChatGPTと、LLMの機械学習モデルやデータセットなどが共有されているプラットフォーム「Hugging Face」（詳細はこちら）を連携したシステムとなる。ユーザーはテキストを入力するだけで、その内容を解決するための適切な機械学習モデルが選択され、処理してくれる。

　例えば「この画像が何を表しているのか？」という文章を動物たちが写る画像とともに入力すると「キリンとシマウマの群れが草を食べている様子」などと言語で表示され、また各動物の画像にはバウンディングボックスが示される。そしてどんな技術（例：画像分類、物体検出など）を使い、どんなモデル（Hugging Face内のモデル名）を使ったかも複数が言語で表示される。

HuggingGPTの使用例

　機械学習モデルが乱立する昨今、特に自然言語を入力に使い、テキストや画像、動画、コード、音声などを出力するタスクは一気に誰でも使えるレベルに落とし込まれつつある。しかし、どの機械学習モデルを使っていいのか分からないことが問題の1つだろう。

　そこで、どの機械学習モデルを選択するかもAIに自動化してもらうというのが今回の目的である。具体的には、LLMを活用して問題を入力し、その問題を解決するソリューションに応じた機械学習モデルを引っ張ってきて、処理する。自然言語を機械学習モデル選択のコントローラーとして使ってしまうというアプローチだ。

　この研究では、チャットAIサービス「ChatGPT」を活用し、機械学習コミュニティー（Hugging Face）内のさまざまな機械学習モデルを連携させてAIタスクを解決するシステム「HuggingGPT」を提案する。

　ユーザーがChatGPTにテキスト入力した問題を分析し、Hugging Faceから適応する機械学習モデルを複数採用し、その要求を解決する。HuggingGPTの全プロセスは4つの段階で構成される。

タスクプランニング：ChatGPTを用い、ユーザーの要求を解析し、その意図を理解してプロンプトによって解決可能なサブタスクに分解する。
モデル選択：サブタスクに基づき、ChatGPTはHugging Faceにホストされている対応モデルを呼び出す。
タスクの実行：呼び出されたモデルを実行し、その結果をChatGPTに返す。
レスポンス生成：最後に、ChatGPTで全モデルの予測結果を統合し、ユーザーへの回答を生成する

HuggingGPTのワークフローは4つのステージで構成される

　このような設計により、HuggingGPTは外部モデルを利用可能なため、マルチモーダルな知覚能力を統合し、複数の複雑なAIタスクを扱うことができる。現在は、ChatGPTを中心にHuggingFace上の数百のモデルを統合し、テキスト分類や物体検出、意味分割、画像生成、質疑応答、テキストから音声、テキストから動画といった多数のタスクをカバーしている。

　またHuggingFace上に新しいモデルが共有されればされるほど強固なものに成長していく。

HuggingGPTで何ができるか？

　　　　　　 1|2 次のページへ