「急速に増える“非英語論文”の検索に」──米Googleら、多言語間でも論文同士の関連性を計算できるモデル開発:Innovative Tech
米Google ResearchとSizzle AIに所属する研究者らは、多言語に対応した科学論文の類似度を測定するモデルと、多言語で書かれた論文が大量に収録されるデータセットを提案した研究報告を発表した。
Innovative Tech:
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
米Google ResearchとSizzle AIに所属する研究者らが発表した論文「OpenMSD: Towards Multilingual Scientific Documents Similarity Measurement」は、多言語に対応した科学論文の類似度を測定するモデルと、多言語で書かれた論文が大量に収録されるデータセットを提案した研究報告である。
研究者において、英語を母語としないことによる不利益がある。例えば、英語を母語とする人に比べ、英語を母語としない人は、英語での論文の読み書きやプレゼンテーションの準備に最大2倍の時間を必要とする。このように、言語障壁は研究者のキャリア形成において大きな影響を与える。
(関連記事:母語が“英語じゃない研究者”のデメリットはどのくらいある? 900人以上の科学者を調査)
一方、科学界において多言語での研究が増えてきている。非英語論文が急増しているという事実があり、実際、2000年以降、非英語の論文は全体の5〜10%を占めるようになってきた。
このような状況では、自分の母語や英語で書かれた論文だけを参考にしていては、偏った判断をしてしまう可能性がある。この問題を解決するために、多言語で書かれた論文間を効率よく比較できる新しい方法やツールの開発が必要である。
既存の手法としては、論文同士の類似性を計算するためのモデル「Scientific Documents Similarity Measurement」(SDSM)が存在する。しかし、主に英語のデータを基に訓練されているため、多言語対応が不十分なのが現状である。
そこで研究者たちは「Open-access Multilingual Scientific Documents」(OpenMSD)という新しいデータセットを作成した。このデータセットには、103言語で書かれた7400万の論文と7780万組の引用関係が収録されている。
このOpenMSDデータセットを基盤にして訓練および評価を行った、多言語対応のSDSMモデルを開発した。このモデルは異なる言語間で関連する論文を効果的に検索できる。
これにより、研究者たちは異なる言語の論文を効率的に検索や読解が可能になる。これは、世界中の研究者が情報を共有し、研究を進める上で重要なステップであり、異なる文化や言語の背景を持つ研究者同士のコラボレーションも増えることが期待される。
Source and Image Credits: Yang Gao, Ji Ma, Ivan Korotkov, Keith Hall, Dana Alon, Don Metzler. OpenMSD: Towards Multilingual Scientific Documents Similarity Measurement.
関連記事
- 母語が“英語じゃない研究者”のデメリットはどのくらいある? 900人以上の科学者を調査
オーストラリアのクイーンズランド大学などに所属する研究者らは、英語を母語としない研究者のキャリア形成における言語障壁の影響を定量化した研究報告を発表した。 - PDF論文やプレゼン資料から「表3を説明して」「5〜7ページを要約して」などの指示に回答 米Adobeなど「PDFTriage」開発
米スタンフォード大学と米Adobe Researchの研究者らは、WebページやPDF論文、プレゼンテーション資料などの複雑な構造からなる特定のドキュメントに対するテキストプロントに適切に回答する、大規模言語モデル向けの方法を提案した研究報告を発表した。 - なぜ日本の論文数は増えないのか? 生成AIが“現状、救世主になれない”理由とは
生成AIの出現によって、業務効率化を図る企業や自治体などが増えつつある。教育・研究機関でも同様に恩恵を受けられそうだが、日本の論文数は横ばいが続いている。テクノロジーは日本の教育・研究機関の救世主にはなり得ないのだろうか。 - 「LK-99は超電導体ではない」 Nature誌が掲載 世界中の科学者の追試結果を紹介
LK-99は超電導体ではない──英学術誌「Nature」は、そんなタイトルの記事を公開した。韓国チームは7月、「常温常圧で超電導性を示す物質を合成した」とする査読前論文を公開していたが、Natureはこれを否定する研究者たちの証言を紹介した。 - 「なぜ私たちはいつも締め切りに追われるのか」──東大松尾教授が2006年に出した論文が話題
なぜ私たちはいつも締め切りに追われるのか──そんなタイトルの論文がX(元Twitter)上で話題になっている。筆者は、日本のAI研究の第一人者である東京大学の松尾豊教授で、産総研の研究員だったころに執筆。2006年に発表したもの。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.