米OpenAIは7月17日(現地時間)、LLMの出力の信頼性と透明性を向上させるための新しいトレーニング方法を紹介する論文(PDF)を公開した。AIによる回答が本当に正しいのか、人間が理解しやすくするための取り組みだ。
このトレーニング方法は、「Prover-Verifier Games(証明者ー検証者ゲーム)」と」呼ばれるゲーム理論に基づいている。おおまかに説明すると、賢い「証明者」と証明者よりはるかに能力の低い「検証者」を用意し、証明者に問題を解決させ、その解決方法を検証者にも理解できるように説明させる。このトレーニングを繰り返すことで、証明者は説明能力が向上し、検証者は解決方法の問題点を見つける能力が向上する。
論文では小学校の算数の回答を判断する設定でトレーニングする方法を紹介している。
論文では、この方法によって、3つの成果が得られたとしている。
まず、読みやすさとパフォーマンスの両立が可能になる。従来のAIは読みやすさを重視するとパフォーマンスが低下し、その逆もあるという関係だったが、この方法ではバランスを保ちつつAIの能力を高められる。
次に、検証者はトレーニングを通じて証明者の策略を見破る能力を身に着けていくので、検証者は証明者が潜ませた人間が誤解しやすい間違いを見抜けるようになる。
また、証明者は検証者のレベルに合わせて説明を修正していくことで、よりわかりやすい解決策を生成できるようになる。
OpenAIは、このトレーニング方法は、AIによる回答に対する信頼性を高めるだけでなく、AIと人間のより良い関係構築にも役立つとしている。「LLMが将来人間より有能になったとしても、LLMの出力への信頼を確立するための有望な兆候を示している」。
OpenAIとロスアラモス国立研究所が提携 マルチモーダルAIの悪用可能性を評価する
OpenAI、GPT-4のエラーを指摘するGPT-4ベースの「CriticGPT」リリース
OpenAI、ロシアや中国によるChatGPTなどのAIツール不正利用について報告 5件を阻止
OpenAI、「最近、次世代モデルのトレーニングを開始した」Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR