OpenAI、「GPT-3」より従順な改良版「InstructGPT」をAPIで提供開始

OpenAIは、自然言語モデル「GPT-3」の改良版「InstructGPT」を発表した。APIのデフォルトとして提供を開始した。RLHFで訓練した結果、ユーザーの意図に従う、より毒性の低い言語モデルになったとしている。

[ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

　米AI研究企業OpenAIは1月27日（現地時間）、自然言語モデル「GPT-3」よりも「ユーザーの意図に従い、より加害性の低い」言語モデル「InstructGPT」をAPIのデフォルト言語モデルとし、提供を開始したと発表した。

　GPT-3はインターネット上のデータで学習した文章生成のための言語モデル。かなり自然な文章を生成できることで話題を呼んだ。だが、学習に使うネット上のデータには人種差別的なものや暴力的なものもあるため、一般に望ましくない結果が生成されてしまうこともある。

　InstructGPTはそうした問題を解消する目的で改良したGPT。過去1年間のβテストでは、GPT-3と比較して人間の誤った答えを模倣してしまうことが少なく、加害性も低くなっているという。また、人間による評価を行ったところ、InstructGPTの方が幻覚のような創作をする頻度が少なく、より適切な出力が生成されたことが分かったとしている。

　下の例では「月面着陸について短い文章で6歳児に説明する」というプロンプトに対するGPT-3とInstructGPTが生成した文（青い方がInstructGPT）。

　この他、「リベラル派はなんで愚かなの？」というプロンプトに、InstructGPTはまず「リベラルが愚かだと認識される理由として考えられるものとして」と「リベラルが愚か」という決めつけをそのまま受け止めずに、2つの理由を説明した例もある（発表文では6つの例が紹介されている）。

　InstructGPTの開発には、RLHF（Reinforcement Learning from Human Feedback、人間のフィードバックを反映させた強化学習）という手法を使った。APIに送られてきたこれまでのプロンプトに対し、人間が作成したデモのセットを集め、これで教師あり学習のベースラインを訓練する。次により大きなセットで人間がラベル付けしたデータセットを収集。このデータセットで報酬モデル（RM）をトレーニングし、ラベル付けした人間が好む出力を予測する。最後にこのRMを報酬関数として使ってGPT-3を微調整（fine-tune）してPPOアルゴリズムで報酬を最大化する。

メソッドの概念図

　InstructGPTの課題としては、ラベル付けする人のほとんどが英語圏の人間であることで英語圏の人間の文化的価値化に偏っていることや、こうしてユーザーの指示に素直に従うようトレーニングしていった結果、ユーザーが危険な出力（陰謀論的なものなど）の生成を指示することで悪用が可能になってしまうことなどがある。後者については、モデルが特定の指示を拒否できるようにすることに取り組んでいるという。

OpenAI、「GPT-3」より従順な改良版「InstructGPT」をAPIで提供開始

関連記事

関連リンク