このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2
IBM Research、Samsung AI、米メリーランド大学、米ミネソタ大学、米コロンビア大学に所属する研究者らが発表した論文「Combining data and theory for derivable scientific discovery with AI-Descartes」は、データと理論を与えると一般的な論理的公理によって表現された事前知識を尊重しながら、データを正確に記述する意味のある最も適した数式を導き出すシステムを提案した研究報告である。
データによく合う方程式の候補を作成し、どの方程式が背景となる科学理論に最も適合するかを識別する。システムは「AI-Descartes」(ルネ・デカルトから命名)と呼ばれ、新たな科学的発見を加速させることを目的としている。
AI-Descartesの中核をなすのは、データに最も適したモデルを見つける「Symbolic Regression」(記号回帰や関数同定問題)。これは、足し算や掛け算、割り算などの基本的な演算子を指定すると、数百から数百万の候補式を生成し、データ内の関係を最も正確に説明する方程式を探索する。
記号回帰に基づく他のシステム(Eureqa、PySR、AI Feynman、Bayesian Machine Scientistなど)は、さまざまな精度でデータに近似する複数の解を出力するが、これらの解はデータに過剰適合/過小適合することがあり、最良の式を導出することが困難な場合がある。
一方AI-Descartesは、記号回帰モジュールと推論モジュールを組みわせる方法を採用する。推論モジュールは、研究対象の環境を記述する背景理論からの公理を考慮するため、記号回帰モジュールが生成する数式を洗練する。
これにより、ノイズの多いデータが存在する大規模データセットでも優れた結果をもたらす。また大量のデータを必要とする多くの機械学習ツールにとって、小さなデータセットは難題となり得るが、この手法は小規模なデータセット(10点程度のデータ)でも信頼性の高い式を導出できるという。
AI-Descartesの精度を評価するため、「ケプラーの第三法則」「アインシュタインの相対性理論」「ラングミュアの吸着等温式」の3つの有名な理論を題材に実験を行い、その有効性を実証した。
これらの理論は何年も前に発見されたものだが、この手法で再発見できたことは非常に興味深い。将来的には、まだ知られていない重要な科学的原理や法則を発見できるかもしれない。
Source and Image Credits: Cornelio, C., Dash, S., Austel, V. et al. Combining data and theory for derivable scientific discovery with AI-Descartes. Nat Commun 14, 1777(2023). https://doi.org/10.1038/s41467-023-37236-y
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR