OpenAIの「12 Days of OpenAI」2日目は強化学習関連

OpenAIが12月5日から開始した、毎日何かを発表する「12 Days of OpenAI」。2日目は強化学習ファインチューニング研究プログラムの発表だった。

[ITmedia] PC用表示関連情報

LINE

Hatena

　米OpenAIは12月6日（現地時間）、前日から開始したミニイベント「12 Days of OpenAI」の2日目として、「Reinforcement Fine-Tuning」（強化学習ファインチューニング研究）プログラムを発表した。

　強化学習ファインチューニングとは、数十から数千の高品質なタスクを用いてモデルをカスタマイズし、提供された参照回答でモデルの応答を評価する新しいモデルカスタマイズ技術。モデルが類似の問題をどのように推論するかを強化し、その分野における特定のタスクに対する精度を向上させることができる。結果に客観的に「正しい」答えがあり、ほとんどの専門家が同意するようなタスクに優れている。

　OpenAIは、研究機関、大学、企業などを対象に、このプログラムへの参加を呼び掛けた。

　参加者はOpenAIの強化学習ファインチューニングAPIにα版でアクセスし、ドメイン固有のタスクでこの技術をテストすることができる。

　「12 Days of OpenAI」の1日目は、「o1」と「ChatGPT Pro」に関する発表だった。今後もウィークデーの10日間、毎日新しい発表が予定されている。

OpenAIの「12 Days of OpenAI」2日目は強化学習関連

関連記事

関連リンク