OpenAI「GPT-4」リリース 司法試験で上位10%の賢さ、画像認識にも対応

» 2023年03月15日 14時53分 公開
[雪城あさぎITmedia]

 米OpenAIは3月14日(現地時間)、新たなマルチモーダルモデル「GPT-4」を開発したと発表した。月額20ドルのChatGPT Plusのユーザーは利用できる。

 現実的なシナリオでは人間の回答に劣るものの、司法試験の模擬テストのような専門的な分野では受験者の上位10%のスコアを記録したという。なお、ChatGPTが採用しているGPT-3.5でのスコアは下位10%だったとしている。

 GPT-4とGPT-3.5の違いはタスクの複雑さがしきい値を超えると現れるという。GPT-4の方が信頼性が高く、創造的かつ微妙な指示を処理でき、試験のスコアも向上している。

OpenAI GPT-4スコア 試験の結果

 機械学習モデル用の従来型ベンチマークにおいても、ほとんどの最先端モデル(SOTA)と比較して優れたスコアを記録した。

OpenAI GPT-4スコア 従来型ベンチマークでの試験結果

 「Azure Translate」を使用してMMLUベンチマークを翻訳してテストした場合でも、26言語のうち24言語でGPT-3.5の英語スコアを上回った。ラトビア語、ウェールズ語、スワヒリ語といった翻訳リソースが少ない言語も含まれる。

OpenAI GPT-4スコア MMLUを翻訳した試験の結果

 現在、研究段階のプレビューとして公開していないが、画像認識にも対応する。画像認識はテキストと同様の性能を発揮するとしており、テキストのみの言語モデル用の少数ショットや思考連鎖プロンプトを使用して拡張することもできるという。

OpenAI GPT-4スコア 画像入力に対するGPT-4の回答。エレコム「ケーブルマニア」を取り付けた端子を接続したスマートフォンを判別し、「最新のスマホにVGA端子を差し込んでいるユーモア」と解説している。実際はケーブルカバーを取り付けているLightning端子

 内部の事実性評価ではGPT-3.5より40%高いスコアを記録し、外部ベンチマーク「TruthfulQA」では誤った記述と事実の分離に成功した。ただしGPT-4でも推論を誤ることはあるという。

OpenAI GPT-4スコア カテゴリーごとの事実性評価
OpenAI GPT-4スコア TruthfulQAでのスコア

 GPT-4がユーザーに与えるリスクを軽減するため、有害なアドバイスや脆弱(ぜいじゃく)性のあるコード、不正確な情報については各分野の50人を超える専門家と協力して敵対的テストを行ってモデルを改善した。RLHF(人間のフィードバックによる強化学習)トレーニング中に追加の信号を組み込み、リスクのある要求を拒否するようにトレーニングした。これにより、許可されていないコンテンツのリクエストに応答する傾向が82%減少し、医療アドバイスや自傷行為などに応答する頻度が29%高くなったという。

OpenAI GPT-4スコア 許可されていないコンテンツに回答した確率。緑がGPT-4

 GPT-4のトレーニングは従来のGPTモデルと同様にドキュメント内の次の単語を予測するようにトレーニングした。Web上に公開されたデータなどを利用し、数学の問題に対して正誤の解決策や推論の強弱などを含み、多岐にわたるイデオロギーとアイデアを表すため、ユーザーが質問するとユーザーの意図とかけはなれた回答を行うという。

 現在GPT-4プロジェクトの焦点はディープラーニング結果の蓄積を予測できること。その理由は、トレーニングが非常に大規模なため、モデル固有に大きく調整を行うことは現実的ではなく、データの拡大が予測できることが非常に重要だからだとしている。具体的には、同じ手法で学習させたモデルの計算量を1万分の1に減らして外挿することで、最終的なGPT-4の損失を事前に正確に予測することに成功している。

OpenAI GPT-4スコア GPT-4の損失予測

検査用フレームワークのオープンソース化

 GPT-4のようなモデルを評価するためのベンチマークを作成/実行し、サンプルごとに検査するための「OpenAI Evals」をオープンソース化した。自身でカスタマイズした評価ロジックを実装できる。

 また3月15日(日本時間)、日本マイクロソフトが新しいBingがGPT-4上で稼働していると発表した。

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

最新トピックスPR

過去記事カレンダー

2024年