強化学習ファインチューニングとは、数十から数千の高品質なタスクを用いてモデルをカスタマイズし、提供された参照回答でモデルの応答を評価する新しいモデルカスタマイズ技術。モデルが類似の問題をどのように推論するかを強化し、その分野における特定のタスクに対する精度を向上させることができる。結果に客観的に「正しい」答えがあり、ほとんどの専門家が同意するようなタスクに優れている。

　OpenAIは、研究機関、大学、企業などを対象に、このプログラムへの参加を呼び掛けた。

　参加者はOpenAIの強化学習ファインチューニングAPIにα版でアクセスし、ドメイン固有のタスクでこの技術をテストすることができる。

　「12 Days of OpenAI」の1日目は、「o1」と「ChatGPT Pro」に関する発表だった。今後もウィークデーの10日間、毎日新しい発表が予定されている。

OpenAIとApollo Research、「o1」は自分の目的のために嘘をつくと報告
OpenAIとApollo Researchは、LLMの「o1」に関する懸念を報告した。Apolloは、テストの結果o1は他のLLMモデルよりも不誠実な振る舞いが多いと結論付けた。
ChatGPTに“月額3万円”の新有料プラン登場　最高性能の「o1 pro mode」などAIモデル＆ツール使い放題
米OpenAIは、新たな有料サービス「ChatGPT Pro」を発表した。現時点での同社の最高性能のAIモデル「OpenAI o1」を含む全AIモデルやツールを無制限で利用できる。
OpenAI、クリスマスまで毎日1つ何かを発表へ　「Sora」も？
OpenAIは、12月5日から12営業日、毎日1件何かを発表するとXにポストした。日本時間の午前3時にライブ配信で発表するとしている。動画生成AI「Sora」の公開も含まれるとみる向きもある。