やっぱり、AIチャットへの入力は“英訳した方が良い結果”に　スペインの研究者らが検証：Innovative Tech

スペインのバスク大学に所属する研究者らは、英語以外の言語で大規模言語モデル（LLM）駆動のAIチャットに入力するよりも、英語に翻訳してから入力する方が高い精度で回答されることを示した研究報告を発表した。

[山下裕毅，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

Innovative Tech：

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: ＠shiropen2

　スペインのバスク大学に所属する研究者らが発表した論文「Do Multilingual Language Models Think Better in English？」は、英語以外の言語で大規模言語モデル（LLM）駆動のAIチャットに入力するよりも、英語に翻訳してから入力する方が高い精度で回答されることを示した研究報告である。

（上）スペイン語のまま直接入力した結果、（下）英語に翻訳してから入力した結果

　実験ではLLM「XGLM」の564M、1.7B、2.9B、7.5Bモデルと、LLM「LLaMA」の7B、13B、30Bモデルを使用する。各モデルについて、原語（英語以外）入力をモデルに与える直接推論と、入力をまず英語に翻訳し、この翻訳された入力を同じモデルに与えてタスクを解く自己翻訳の2つの方法を比較する。

　入力するタスクは、算数問題や常識問題、言い換え問題など5つのデータ（XCOPA、XStoryCloze、XNLI、PAWS-X、MGSM）を使用する。

　結果は、全てのモデルにおいて、原語で直接タスクを解くよりも、英語に翻訳してからプロンプトとして入力する方が精度が高かった。LLaMAに関しては、全てのモデルサイズと問題で英語に翻訳した方が良い結果になった。また、この現象はタスク間で一貫しており、大規模モデルや高リソース言語ほど顕著であることが分かった。

XGLMとLLaMAのサイズを変えた場合の直接推論と自己翻訳を使ったタスクの精度。最後の列は全タスクの平均精度。各モデルとタスクで最良の結果を太字で示す

　これらの結果から、多言語モデルは、英語以外の言語でプロンプトが表示された場合、その潜在能力をフルに活用できないことを示している。

Source and Image Credits: Etxaniz, Julen, Gorka Azkune, Aitor Soroa, Oier Lopez de Lacalle, and Mikel Artetxe. “Do Multilingual Language Models Think Better in English？.” arXiv preprint arXiv:2308.01223（2023）.

やっぱり、AIチャットへの入力は“英訳した方が良い結果”に　スペインの研究者らが検証：Innovative Tech

Innovative Tech：

関連記事

関連リンク

やっぱり、AIチャットへの入力は“英訳した方が良い結果”に スペインの研究者らが検証：Innovative Tech

Innovative Tech：

関連記事

関連リンク

やっぱり、AIチャットへの入力は“英訳した方が良い結果”に　スペインの研究者らが検証：Innovative Tech