米スタンフォード大学などに所属する研究者らが発表した論文「Lost in the Middle: How Language Models Use Long Contexts」は、大規模言語モデル（LLM）の性能について、入力コンテキストの長さや関連情報（答えを含む文書）の位置を変えることでどのような影響があるかについて調査した研究報告である。

　調査結果から、関連情報を入力コンテキストの最初に記入すると最も高い精度が得られ、入力コンテキストの最後に関連情報を記入すると次に高い精度が得られることが分かった。一方、関連情報を中央に配置すると精度が著しく低下した。つまり、重要な情報をモデルに意識させたい場合は、最初と最後に配置することが望ましいとなる。

　入力コンテキストが長くなるほどパフォーマンスが低下することも明らかになった。

モデルは入力コンテキスト（プロンプト）の最初か最後にある関連情報を使用するのが得意で、入力コンテキストの中間にある情報にアクセスして使用しなければならない場合、性能は著しく低下

　言語モデルは一般的にTransformerで実装されるが、Transformerは長いシーケンス（トークン数）を弱点としている。トークンとは、テキストを単語や文字、句読点、記号などに分解したパーツを指す。そのためChatGPT（GPT-4）でもトークン数は3万程度である。

　この研究では、一般的な言語モデルにおいて、入力コンテキストのサイズと入力コンテキスト内の関連情報の位置に制御された変更を加え、モデルのパフォーマンスへの影響を調査する。

　具体的には、入力コンテキストにより多くの文書を追加することで入力コンテキストの長さを増加させ、入力コンテキスト内の文書の順序を変更することでコンテキスト内の関連情報の位置を変更し、関連文書をコンテキストの先頭、中間、または末尾に配置する。

　言語モデルには、オープン（MPT-30B-Instruct、LongChat-13B（16K）とクローズ（OpenAIのGPT3.5-TurboとAnthropicのClaude）を用いる。

　結果、関連情報が入力コンテキストの最初か最後にあるとき、言語モデルの性能は最も高く、入力コンテキストの途中の情報にアクセスして使用しなければならないとき、性能は著しく低下すると分かった。

関連情報の位置を変えることによる、入力コンテキストの質問に対する回答パフォーマンスへの影響

　さらに、文脈が長くなるとモデルの性能は着実に低下することが分かった。これはモデルが長い入力コンテクストから関連する情報を検索して利用するのに苦労していることを示している。

　トークンの制限数を増やせば増やすほど、より多くの背景を考慮できるため、適切な回答が可能と考えられる仮説もあるが、この研究結果により、その仮説に疑問が投げかけられた。

入力コンテキストが長くなるにつれて言語モデルのパフォーマンス低下することを示したグラフ

Source and Image Credits: Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, Percy Liang. Lost in the Middle: How Language Models Use Long Contexts

この連載を「連載記事アラート」に登録する New