このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
米カーネギーメロン大学や中国の清華大学に所属する研究者らが発表した論文「Prompt2Model: Generating Deployable Models from Natural Language Instructions」は、短い文章(プロンプト)だけから、自然言語処理(NLP)モデルを自動で作り出すフレームワークを提案した研究報告である。
従来、NLPモデルの構築は非常に煩雑な作業であった。それは、対象とする課題(タスク)を定義し、適切なデータを収集し、モデルのアーキテクチャを選定し、訓練や評価を行い、実世界で使用できるようにデプロイするという一連の手続きを必要としたからである。
しかし、GPT-3などの大規模言語モデル(LLM)の登場により、プログラムコードを一行も書かずに試作モデルを短時間で作成できるようになった。その一方で、膨大な計算リソースまたは商用APIへのアクセスが必要であり、入力プロンプトの品質に依存するため、訓練済みモデルに比べて不安定である。またプライバシーの懸念も残る。
提案されたフレームワーク「Prompt2Model」はこれらの課題を解決する。短いプロンプトに基づき、データ収集からモデルの選定や微調整、評価に至るまでを自動化し、特定のタスクに適した小規模なモデルを生成する。
具体的には、プロンプトに応じたタスクに関連する既存のデータを集める。教師モデルとしてLLMを用い、疑似ラベルが付与された新しいデータセットを生成する。プロンプトに基づいて、事前に訓練された適切なモデル(生徒モデル)を選び、それを生成したデータセットで微調整および評価を行う。
このようにPrompt2Modelは、プロンプト一つで必要なデータを集め、適切なモデルを選び、訓練、評価まで行ってくれるわけだ。これにより、短い時間と少ない労力で特定のタスクに強い軽量なNLPモデルを作成できる。またこのフレームワークは拡張性が高く、新しいデータ収集手法やモデル訓練のアプローチを試す研究にも利用可能だ。
Source and Image Credits: Viswanathan, Vijay, Chenyang Zhao, Amanda Bertsch, Tongshuang Wu, and Graham Neubig. “Prompt2Model: Generating Deployable Models from Natural Language Instructions.” arXiv preprint arXiv:2308.12261(2023).
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR