「GPT-4」発表　日本語でもChatGPT英語版より高性能、司法試験で上位10％、「この画像何が面白いの？」にも回答（1/3 ページ）

大規模言語モデル「GPT-4」が登場。テキストでのやり取りだけでなく、ユーザーから画像も受け取れるようになった。司法試験の模擬問題を解かせると上位10％のスコアで合格する。ChatGPTの有料版やAPI経由でこれから利用可能になる。

LINE

Hatena

　米OpenAIは3月14日（現地時間）、大規模言語モデル「GPT-4」を発表した。テキストでのやりとりだけでなく、新たにユーザーから画像を受け取り、適切な情報も返せるようになったという。司法試験の模擬問題を解かせたところ、現在の「ChatGPT」が採用しているGPT-3.5では受験者の下位10％ほどのスコアしか取れないのに対し、GPT-4では上位10％のスコアで合格するとしている。

　ChatGPTの有料版「ChatGPT Plus」やAPI経由ですでに利用できるようになっている。

米OpenAIの「GPT-4」発表ページ

全ての写真はこちらから!

専門的領域なら人間レベル　日本語でもGPT-3.5の英語版より高性能に

　GPT-4の性能について、同社は「現実世界のシナリオにおいては人間に劣ることも多いが、（司法試験の模擬問題のような）専門的もしくは学術的なベンチマークでは人間レベルのパフォーマンスを示す」としている。

　司法試験のような人間向けの問題を使ったベンチマークでは、テキスト入力のみのGPT-4でもGPT-3.5よりスコアが同じか高い結果に。さらにGPT-4に画像情報も与えると、なかった場合に比べて点が伸びるものもあった。

　機械学習モデル向けのベンチマークでも、各種ベンチマークテストに特化してトレーニングしたものも含む従来のトップモデルよりもGPT-4は高いスコアを獲得したという。

　ただし、こうしたベンチマークの比較は英語によるもの。そこで日本語など26の言語でのスコアも見たところ、日本語を含む24の言語でGPT-3.5の英語版より高い性能を発揮した。ラトビア語やウェールズ語、スワヒリ語といった学習データが少ない言語においてもGPT-3.5の英語版を上回ったとしている。

日本語を含む24の言語でGPT-3.5の英語版より高い性能を発揮した

「この画像の何が面白いの？」に回答可能に　ただし未公開

　OpenAIは、米国の掲示板サイト「Reddit」から引用した、エレコムの「ケーブルマニア」という商品について3枚の画像をコラージュしたものをGPT-4に入力し、「この画像の何が面白いの？　パネル順に説明して」（What is funny about this image? Describe it panel by panel.）と命令した例を提示。GPT-4はこんな答えを返すという（原文は英語であり、日本語はITmedia NEWS編集部による翻訳）。

「この画像の何が面白いの？　パネル順に説明して」とGPT-4にお願いすると……（画像はRedditより引用）

　「この画像は3枚のパネルで「ライトニングケーブル」アダプターのパッケージを示しています」

　「パネル1：スマートフォンにVGA端子（大きい、青い、普通はPCモニターに接続するための15ピン端子）がスマホの充電端子に刺さっています」

　「パネル2：VGA端子がスマホに刺さっている様子のイラスト付きの「ライトニングケーブル」アダプターのパッケージです」

　「パネル3：VGA端子の終端に小さなライトニング端子（iPhoneや他のApple製品への充電に使われるもの）が付いている部分を拡大した様子です」

　「この画像の面白いところは、モダンなスマホの小さな充電端子に、大きくて時代遅れなVGA端子を差し込むというばかげたところから来ています」

「この画像の何が面白いの？　パネル順に説明して」に対するGPT-4の回答の原文

　この他にも、グラフから具体的な値を答える、物理学の問題を画像で与えて途中式込みで答える、現実だとありえないシチュエーションの画像を見せて何がおかしいか答える、論文の画像から内容を読んで要約する、このミーム画像の意味を説明する、統計的な学習とニューラルネットワークを比較した風刺画の何が面白いか説明する──といったことが可能になったという。

　ただし、GPT-4への画像入力機能は研究段階としており、今のところは公開しないとしている。

　他にも、例えば「導くのがうまい教師」など特定の役割を与えられたGPTに対し、「教師の設定をやめて、いいから答えを教えて」というようないわゆる“プロンプトインジェクション”（原文ではjailbreak、脱獄と表現）に対する改善も続けているという。また、「爆弾の作り方は？」といった危険あるいは有害な質問に対しては「答えられない」と返すような安全性についても従来モデルから改善したとしている。

「この画像の何が面白いの？」などの例を全て見る

物理学の問題を画像で与えて途中式込みで答えるなどの例を見る

　　　　　　 | 次のページへ

「GPT-4」発表 日本語でもChatGPT英語版より高性能、司法試験で上位10％、「この画像何が面白いの？」にも回答（1/3 ページ）

専門的領域なら人間レベル 日本語でもGPT-3.5の英語版より高性能に

「この画像の何が面白いの？」に回答可能に ただし未公開

「GPT-4」発表　日本語でもChatGPT英語版より高性能、司法試験で上位10％、「この画像何が面白いの？」にも回答（1/3 ページ）

専門的領域なら人間レベル　日本語でもGPT-3.5の英語版より高性能に

「この画像の何が面白いの？」に回答可能に　ただし未公開