ドイツのMPI-IS、スイスのETH Zurich、米ミシガン大学、香港大学、米Meta AIに所属する研究者らが発表した論文「Can Large Language Models Infer Causation from Correlation？」は、大規模言語モデル（LLM）が相関関係から因果関係を推定する因果推論タスクでどの程度の性能を発揮できるかを調査した研究報告である。

　推論の基本的な考え方では、因果関係を得るために2つの方法がある。1つは、経験的な知識に基づくものだ。例えば、誕生日パーティーを友人のために準備すると、幸せになるということは常識的に知られている。

　もう1つは、既知の手順やルールを用いて因果関係を推論する純粋な因果推論だ。前者の場合は、過去の事例を学習データとして活用することで、経験的な知識に基づいた推定が可能だろう。しかし、後者の純粋な因果推論によって因果関係を推論することは可能だろうか。

タスクとデータセットを説明する図

　この研究の動機の一つは、後者の因果推論がLLMにとって必要不可欠であることだ。例えば、「ワクチン」という単語が病気の患者数の変動と相関しているような相関関係がたくさん存在するが、必ずしも因果関係があるとはいえない。

　LLMの成功は、用語間の膨大な統計的相関を捕らえることにあるという立場を取るなら、重要だが欠けているステップは、このような相関を処理して因果関係を推測する方法となる。そのため、LLMの精度向上のためには、因果推論能力の向上が必要となる可能性がある。

　研究チームは、LLMの因果推論能力を評価するために、40万の因果推論問題データセット「Corr2Cause」を作成した。このデータセットでは、相関関係と因果関係をペアとしてラベル付けしており、因果推論の概念に基づいた有効性や無効性などを記述したデータが含まれる。

　対象となる変数の数やその相関関係から複数のノードを持つ因果グラフを生成し、DGCMやD-Separation、MECなどの因果推論の概念が適用されている。

データ構築プロセスのパイプライン

　Corr2Causeデータセットを利用して、既存のLLMが因果推論タスクにおいてどの程度の性能を示すのか、また、既存のLLMをテストデータで微調整（Fine-tuning）することで、頑健な因果推論スキルを獲得することが可能かを調査する。

　実験では、AlpacaやGPT-4などの最新含む17種類のLLMモデル（GPTベース、BERTベース、LLaMaベースなど）を使用し、Corr2Causeデータセットでテストした。その結果、全てのモデルにおいて因果推論タスクがうまく機能しないことが示された。各LLMの結果を見ると、F1スコアにおいて、BART MNLIが最も高く、次いでGPT-4やAlpaca-6.7Bなどが続いたが、全体的に精度が低い結果となった。

各LLMに対しての精度や再現性などの数値結果

　次に、LLMをデータ上で微調整することで因果推論タスクの精度がどのように変化するかを調査した。その結果、ほとんどのモデルが微調整により大幅に改善された。特にBERTベースのNLIモデルが最も強力な性能を示した。「RoBERTa-Large MNLI」はこのタスクで94.74％のF1スコアと非常に高い精度を示した。

　しかし、研究者たちはモデルが本当に因果推論スキルを頑健に学習したのか疑問を抱き、問題の言い換えや変数名のアルファベットの逆転などのリファクタライズを行い、頑健性テストを行った。

　その結果、テストセットを言い換えた場合、全てのモデルが最大39.29％低下し、変数名をリファクタリングした場合は最大58.38％低下することが分かった。最も優れたモデルである「RoBERTa-Large MNLI」は、言い換えに特に敏感であり、全モデルの中で最も低下した。

　これらの結果から、微調整によって良好な性能が得られることは分かったが、LLMが獲得する因果推論スキルは頑健ではないことが示された。

左が微調整したモデルの因果推論タスクの精度結果。右が微調整したモデルの頑健性テストを行った精度結果

Source and Image Credits: Jin, Zhijing, Jia-Rou Liu, Zhiheng Lyu, Spencer Poff, Mrinmaya Sachan, Rada Mihalcea, Mona Diab and Bernhard Scholkopf. “Can Large Language Models Infer Causation from Correlation？”（2023）.

この連載を「連載記事アラート」に登録する New