OpenAI「GPT-4」リリース　司法試験で上位10％の賢さ、画像認識にも対応

米OpenAIは3月14日（現地時間）、新たなマルチモーダルモデル「GPT-4」をリリースしたと発表した。現実的なシナリオでは人間の回答に劣るものの、司法試験の模擬テストのような専門的な分野では受験者の上位10％のスコアを記録したという。

[雪城あさぎ，ITmedia]

　米OpenAIは3月14日（現地時間）、新たなマルチモーダルモデル「GPT-4」を開発したと発表した。月額20ドルのChatGPT Plusのユーザーは利用できる。

　現実的なシナリオでは人間の回答に劣るものの、司法試験の模擬テストのような専門的な分野では受験者の上位10％のスコアを記録したという。なお、ChatGPTが採用しているGPT-3.5でのスコアは下位10％だったとしている。

　GPT-4とGPT-3.5の違いはタスクの複雑さがしきい値を超えると現れるという。GPT-4の方が信頼性が高く、創造的かつ微妙な指示を処理でき、試験のスコアも向上している。

試験の結果

　機械学習モデル用の従来型ベンチマークにおいても、ほとんどの最先端モデル（SOTA）と比較して優れたスコアを記録した。

従来型ベンチマークでの試験結果

　「Azure Translate」を使用してMMLUベンチマークを翻訳してテストした場合でも、26言語のうち24言語でGPT-3.5の英語スコアを上回った。ラトビア語、ウェールズ語、スワヒリ語といった翻訳リソースが少ない言語も含まれる。

MMLUを翻訳した試験の結果

　現在、研究段階のプレビューとして公開していないが、画像認識にも対応する。画像認識はテキストと同様の性能を発揮するとしており、テキストのみの言語モデル用の少数ショットや思考連鎖プロンプトを使用して拡張することもできるという。

画像入力に対するGPT-4の回答。エレコム「ケーブルマニア」を取り付けた端子を接続したスマートフォンを判別し、「最新のスマホにVGA端子を差し込んでいるユーモア」と解説している。実際はケーブルカバーを取り付けているLightning端子

　内部の事実性評価ではGPT-3.5より40％高いスコアを記録し、外部ベンチマーク「TruthfulQA」では誤った記述と事実の分離に成功した。ただしGPT-4でも推論を誤ることはあるという。

カテゴリーごとの事実性評価

TruthfulQAでのスコア

　GPT-4がユーザーに与えるリスクを軽減するため、有害なアドバイスや脆弱（ぜいじゃく）性のあるコード、不正確な情報については各分野の50人を超える専門家と協力して敵対的テストを行ってモデルを改善した。RLHF（人間のフィードバックによる強化学習）トレーニング中に追加の信号を組み込み、リスクのある要求を拒否するようにトレーニングした。これにより、許可されていないコンテンツのリクエストに応答する傾向が82％減少し、医療アドバイスや自傷行為などに応答する頻度が29％高くなったという。

許可されていないコンテンツに回答した確率。緑がGPT-4

　GPT-4のトレーニングは従来のGPTモデルと同様にドキュメント内の次の単語を予測するようにトレーニングした。Web上に公開されたデータなどを利用し、数学の問題に対して正誤の解決策や推論の強弱などを含み、多岐にわたるイデオロギーとアイデアを表すため、ユーザーが質問するとユーザーの意図とかけはなれた回答を行うという。

　現在GPT-4プロジェクトの焦点はディープラーニング結果の蓄積を予測できること。その理由は、トレーニングが非常に大規模なため、モデル固有に大きく調整を行うことは現実的ではなく、データの拡大が予測できることが非常に重要だからだとしている。具体的には、同じ手法で学習させたモデルの計算量を1万分の1に減らして外挿することで、最終的なGPT-4の損失を事前に正確に予測することに成功している。

GPT-4の損失予測

検査用フレームワークのオープンソース化

　GPT-4のようなモデルを評価するためのベンチマークを作成／実行し、サンプルごとに検査するための「OpenAI Evals」をオープンソース化した。自身でカスタマイズした評価ロジックを実装できる。

GitHub-OpenAI／Evals

　また3月15日（日本時間）、日本マイクロソフトが新しいBingがGPT-4上で稼働していると発表した。

日本マイクロソフトのニュースリリース

経営者の「ChatGPT」認知は約30％　検索に利用しつつも具体的な活用イメージは不明――レトリバが調査
AIテキスト分析ツール「YOSHINA」を提供するレトリバは、全国の経営者を対象に「ChatGPT」について調査した結果を公表した。ChatGPTの認知度は30.6％で、約4割が検索に利用しているが具体的な活用イメージについては「まだわからない」が半数となった。
Googleの会話型AIサービス「Bard」はなぜChatGPTに後れを取ったのか？
Googleが、対話アプリケーション用言語モデル（LaMDA）を搭載した実験的な会話型AIサービス「Bard」を発表しました。2022年11月に公開されたChatGPTに対抗するサービスとなります。当面は対話アプリケーション用言語モデル（LaMDA）のフル機能を利用できるわけではなく、Bardの回答が品質、安全性、信頼性などの基準を満たしていることを確認するとしています。
ChatGPTに「iPhoneとAndroidどちらがオススメなのか」聞いてみた
OpenAIが開発した対話型サービス「ChatGPT」が話題を集めています。そこで、ITmedia Mobileでは、モバイルに関連する質問を投げかけてみることにしました。今回質問したのは「iPhoneとAndroid、どちらがオススメですか？」です。
Googleが会話型AIサービス「Bard」発表、まずはテストユーザーに公開
米Googleは、2月7日に対話アプリ用言語モデル「LaMDA」を活用した実験的な会話型AIサービス「Bard」を発表。まずは「信頼できるテストユーザー」にのみ公開し、今後はGoogle検索へAIの新機能を追加するという。
人気のChatGPTは「答え」を出すツールではありませんが「要約」はいいかもしれません
最近、AI言語モデルを使ったチャットボット「ChatGPT」が脚光を浴びています。iPhoneとAndroidについて聞いてみると、どんな答えが出てくるのでしょうか……？

OpenAI「GPT-4」リリース　司法試験で上位10％の賢さ、画像認識にも対応

検査用フレームワークのオープンソース化

関連記事

関連リンク

記事ランキング

OpenAI「GPT-4」リリース 司法試験で上位10％の賢さ、画像認識にも対応

検査用フレームワークのオープンソース化

関連記事

関連リンク

記事ランキング

OpenAI「GPT-4」リリース　司法試験で上位10％の賢さ、画像認識にも対応