OpenAI「GPT-4」リリース 司法試験で上位10%の賢さ、画像認識にも対応

» 2023年03月15日 14時53分 公開
[雪城あさぎITmedia]

 米OpenAIは3月14日(現地時間)、新たなマルチモーダルモデル「GPT-4」を開発したと発表した。月額20ドルのChatGPT Plusのユーザーは利用できる。

 現実的なシナリオでは人間の回答に劣るものの、司法試験の模擬テストのような専門的な分野では受験者の上位10%のスコアを記録したという。なお、ChatGPTが採用しているGPT-3.5でのスコアは下位10%だったとしている。

 GPT-4とGPT-3.5の違いはタスクの複雑さがしきい値を超えると現れるという。GPT-4の方が信頼性が高く、創造的かつ微妙な指示を処理でき、試験のスコアも向上している。

OpenAI GPT-4スコア 試験の結果

 機械学習モデル用の従来型ベンチマークにおいても、ほとんどの最先端モデル(SOTA)と比較して優れたスコアを記録した。

OpenAI GPT-4スコア 従来型ベンチマークでの試験結果

 「Azure Translate」を使用してMMLUベンチマークを翻訳してテストした場合でも、26言語のうち24言語でGPT-3.5の英語スコアを上回った。ラトビア語、ウェールズ語、スワヒリ語といった翻訳リソースが少ない言語も含まれる。

OpenAI GPT-4スコア MMLUを翻訳した試験の結果

 現在、研究段階のプレビューとして公開していないが、画像認識にも対応する。画像認識はテキストと同様の性能を発揮するとしており、テキストのみの言語モデル用の少数ショットや思考連鎖プロンプトを使用して拡張することもできるという。

OpenAI GPT-4スコア 画像入力に対するGPT-4の回答。エレコム「ケーブルマニア」を取り付けた端子を接続したスマートフォンを判別し、「最新のスマホにVGA端子を差し込んでいるユーモア」と解説している。実際はケーブルカバーを取り付けているLightning端子

 内部の事実性評価ではGPT-3.5より40%高いスコアを記録し、外部ベンチマーク「TruthfulQA」では誤った記述と事実の分離に成功した。ただしGPT-4でも推論を誤ることはあるという。

OpenAI GPT-4スコア カテゴリーごとの事実性評価
OpenAI GPT-4スコア TruthfulQAでのスコア

 GPT-4がユーザーに与えるリスクを軽減するため、有害なアドバイスや脆弱(ぜいじゃく)性のあるコード、不正確な情報については各分野の50人を超える専門家と協力して敵対的テストを行ってモデルを改善した。RLHF(人間のフィードバックによる強化学習)トレーニング中に追加の信号を組み込み、リスクのある要求を拒否するようにトレーニングした。これにより、許可されていないコンテンツのリクエストに応答する傾向が82%減少し、医療アドバイスや自傷行為などに応答する頻度が29%高くなったという。

OpenAI GPT-4スコア 許可されていないコンテンツに回答した確率。緑がGPT-4

 GPT-4のトレーニングは従来のGPTモデルと同様にドキュメント内の次の単語を予測するようにトレーニングした。Web上に公開されたデータなどを利用し、数学の問題に対して正誤の解決策や推論の強弱などを含み、多岐にわたるイデオロギーとアイデアを表すため、ユーザーが質問するとユーザーの意図とかけはなれた回答を行うという。

 現在GPT-4プロジェクトの焦点はディープラーニング結果の蓄積を予測できること。その理由は、トレーニングが非常に大規模なため、モデル固有に大きく調整を行うことは現実的ではなく、データの拡大が予測できることが非常に重要だからだとしている。具体的には、同じ手法で学習させたモデルの計算量を1万分の1に減らして外挿することで、最終的なGPT-4の損失を事前に正確に予測することに成功している。

OpenAI GPT-4スコア GPT-4の損失予測

検査用フレームワークのオープンソース化

 GPT-4のようなモデルを評価するためのベンチマークを作成/実行し、サンプルごとに検査するための「OpenAI Evals」をオープンソース化した。自身でカスタマイズした評価ロジックを実装できる。

 また3月15日(日本時間)、日本マイクロソフトが新しいBingがGPT-4上で稼働していると発表した。

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2026年04月27日 更新
  1. 3社そろい踏みの「Starlink Direct」 料金で仕掛けるドコモとソフトバンク、先行するKDDIは“サービス”で差別化 (2026年04月25日)
  2. スマホの「残価設定」にメス? 総務省がルール統一を検討も、Appleは「不当な扱い」と猛反発 (2026年04月25日)
  3. 楽天モバイル、ルーター「Rakuten WiFi Pocket 5G」の販売を一時停止 理由は? (2026年04月24日)
  4. ダイソーで1100円の「USB充電器(PD20W)」は、きちんと20Wで充電できるのか? (2026年04月26日)
  5. Xiaomiの前に、中国スマホの“雄”だったMeizu、またしてもピンチ (2026年04月26日)
  6. ダイソーの1100円「シースルーイヤフォン」に一目ぼれ “音質と個体差”に目をつむれば「あり」な選択肢 (2026年04月23日)
  7. 1.72型ディスプレイ搭載スマートバンド「Xiaomi Smart Band 10」、高精度の睡眠モニタリングも可能 (2026年04月25日)
  8. 携帯電話のホッピング問題、「6カ月以内の継続利用を認める」方向で決着か 2026年夏に結論 (2026年04月23日)
  9. ソフトバンクが「今回もやる」とGalaxy S26を月額1円で販売――販売方法を早急に見直さないと撤退を迫られるメーカーも (2026年03月08日)
  10. 「Pixel 10a」と「Pixel 10」どちらを選ぶ? 実機比較で分かった「約5万円差の価値」と「明確な違い」 (2026年04月20日)
最新トピックスPR

過去記事カレンダー

2026年