ITmedia NEWS > 科学・テクノロジー >

「急速に増える“非英語論文”の検索に」──米Googleら、多言語間でも論文同士の関連性を計算できるモデル開発Innovative Tech

» 2023年09月29日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: @shiropen2

 米Google ResearchとSizzle AIに所属する研究者らが発表した論文「OpenMSD: Towards Multilingual Scientific Documents Similarity Measurement」は、多言語に対応した科学論文の類似度を測定するモデルと、多言語で書かれた論文が大量に収録されるデータセットを提案した研究報告である。

OpenMSDのリポジトリ

 研究者において、英語を母語としないことによる不利益がある。例えば、英語を母語とする人に比べ、英語を母語としない人は、英語での論文の読み書きやプレゼンテーションの準備に最大2倍の時間を必要とする。このように、言語障壁は研究者のキャリア形成において大きな影響を与える。

(関連記事:母語が“英語じゃない研究者”のデメリットはどのくらいある? 900人以上の科学者を調査

 一方、科学界において多言語での研究が増えてきている。非英語論文が急増しているという事実があり、実際、2000年以降、非英語の論文は全体の5〜10%を占めるようになってきた。

 このような状況では、自分の母語や英語で書かれた論文だけを参考にしていては、偏った判断をしてしまう可能性がある。この問題を解決するために、多言語で書かれた論文間を効率よく比較できる新しい方法やツールの開発が必要である。

 既存の手法としては、論文同士の類似性を計算するためのモデル「Scientific Documents Similarity Measurement」(SDSM)が存在する。しかし、主に英語のデータを基に訓練されているため、多言語対応が不十分なのが現状である。

 そこで研究者たちは「Open-access Multilingual Scientific Documents」(OpenMSD)という新しいデータセットを作成した。このデータセットには、103言語で書かれた7400万の論文と7780万組の引用関係が収録されている。

OpenMSDデータセット内のトップ20言語

 このOpenMSDデータセットを基盤にして訓練および評価を行った、多言語対応のSDSMモデルを開発した。このモデルは異なる言語間で関連する論文を効果的に検索できる。

 これにより、研究者たちは異なる言語の論文を効率的に検索や読解が可能になる。これは、世界中の研究者が情報を共有し、研究を進める上で重要なステップであり、異なる文化や言語の背景を持つ研究者同士のコラボレーションも増えることが期待される。

Source and Image Credits: Yang Gao, Ji Ma, Ivan Korotkov, Keith Hall, Dana Alon, Don Metzler. OpenMSD: Towards Multilingual Scientific Documents Similarity Measurement.



Copyright © ITmedia, Inc. All Rights Reserved.