メディア

OpenAI「GPT-4」リリース　司法試験で上位10％の賢さ、画像認識にも対応

» 2023年03月15日 14時53分公開

[雪城あさぎ，ITmedia]

　米OpenAIは3月14日（現地時間）、新たなマルチモーダルモデル「GPT-4」を開発したと発表した。月額20ドルのChatGPT Plusのユーザーは利用できる。

　現実的なシナリオでは人間の回答に劣るものの、司法試験の模擬テストのような専門的な分野では受験者の上位10％のスコアを記録したという。なお、ChatGPTが採用しているGPT-3.5でのスコアは下位10％だったとしている。

　GPT-4とGPT-3.5の違いはタスクの複雑さがしきい値を超えると現れるという。GPT-4の方が信頼性が高く、創造的かつ微妙な指示を処理でき、試験のスコアも向上している。

試験の結果

　機械学習モデル用の従来型ベンチマークにおいても、ほとんどの最先端モデル（SOTA）と比較して優れたスコアを記録した。

従来型ベンチマークでの試験結果

　「Azure Translate」を使用してMMLUベンチマークを翻訳してテストした場合でも、26言語のうち24言語でGPT-3.5の英語スコアを上回った。ラトビア語、ウェールズ語、スワヒリ語といった翻訳リソースが少ない言語も含まれる。

MMLUを翻訳した試験の結果

　現在、研究段階のプレビューとして公開していないが、画像認識にも対応する。画像認識はテキストと同様の性能を発揮するとしており、テキストのみの言語モデル用の少数ショットや思考連鎖プロンプトを使用して拡張することもできるという。

画像入力に対するGPT-4の回答。エレコム「ケーブルマニア」を取り付けた端子を接続したスマートフォンを判別し、「最新のスマホにVGA端子を差し込んでいるユーモア」と解説している。実際はケーブルカバーを取り付けているLightning端子

　内部の事実性評価ではGPT-3.5より40％高いスコアを記録し、外部ベンチマーク「TruthfulQA」では誤った記述と事実の分離に成功した。ただしGPT-4でも推論を誤ることはあるという。

カテゴリーごとの事実性評価

TruthfulQAでのスコア

　GPT-4がユーザーに与えるリスクを軽減するため、有害なアドバイスや脆弱（ぜいじゃく）性のあるコード、不正確な情報については各分野の50人を超える専門家と協力して敵対的テストを行ってモデルを改善した。RLHF（人間のフィードバックによる強化学習）トレーニング中に追加の信号を組み込み、リスクのある要求を拒否するようにトレーニングした。これにより、許可されていないコンテンツのリクエストに応答する傾向が82％減少し、医療アドバイスや自傷行為などに応答する頻度が29％高くなったという。

許可されていないコンテンツに回答した確率。緑がGPT-4

　GPT-4のトレーニングは従来のGPTモデルと同様にドキュメント内の次の単語を予測するようにトレーニングした。Web上に公開されたデータなどを利用し、数学の問題に対して正誤の解決策や推論の強弱などを含み、多岐にわたるイデオロギーとアイデアを表すため、ユーザーが質問するとユーザーの意図とかけはなれた回答を行うという。

　現在GPT-4プロジェクトの焦点はディープラーニング結果の蓄積を予測できること。その理由は、トレーニングが非常に大規模なため、モデル固有に大きく調整を行うことは現実的ではなく、データの拡大が予測できることが非常に重要だからだとしている。具体的には、同じ手法で学習させたモデルの計算量を1万分の1に減らして外挿することで、最終的なGPT-4の損失を事前に正確に予測することに成功している。

GPT-4の損失予測

検査用フレームワークのオープンソース化

　GPT-4のようなモデルを評価するためのベンチマークを作成／実行し、サンプルごとに検査するための「OpenAI Evals」をオープンソース化した。自身でカスタマイズした評価ロジックを実装できる。

GitHub-OpenAI／Evals

　また3月15日（日本時間）、日本マイクロソフトが新しいBingがGPT-4上で稼働していると発表した。

日本マイクロソフトのニュースリリース

経営者の「ChatGPT」認知は約30％　検索に利用しつつも具体的な活用イメージは不明――レトリバが調査
AIテキスト分析ツール「YOSHINA」を提供するレトリバは、全国の経営者を対象に「ChatGPT」について調査した結果を公表した。ChatGPTの認知度は30.6％で、約4割が検索に利用しているが具体的な活用イメージについては「まだわからない」が半数となった。
Googleの会話型AIサービス「Bard」はなぜChatGPTに後れを取ったのか？
Googleが、対話アプリケーション用言語モデル（LaMDA）を搭載した実験的な会話型AIサービス「Bard」を発表しました。2022年11月に公開されたChatGPTに対抗するサービスとなります。当面は対話アプリケーション用言語モデル（LaMDA）のフル機能を利用できるわけではなく、Bardの回答が品質、安全性、信頼性などの基準を満たしていることを確認するとしています。
ChatGPTに「iPhoneとAndroidどちらがオススメなのか」聞いてみた
OpenAIが開発した対話型サービス「ChatGPT」が話題を集めています。そこで、ITmedia Mobileでは、モバイルに関連する質問を投げかけてみることにしました。今回質問したのは「iPhoneとAndroid、どちらがオススメですか？」です。
Googleが会話型AIサービス「Bard」発表、まずはテストユーザーに公開
米Googleは、2月7日に対話アプリ用言語モデル「LaMDA」を活用した実験的な会話型AIサービス「Bard」を発表。まずは「信頼できるテストユーザー」にのみ公開し、今後はGoogle検索へAIの新機能を追加するという。
人気のChatGPTは「答え」を出すツールではありませんが「要約」はいいかもしれません
最近、AI言語モデルを使ったチャットボット「ChatGPT」が脚光を浴びています。iPhoneとAndroidについて聞いてみると、どんな答えが出てくるのでしょうか……？

アクセストップ10

2024年05月03日更新

ダイソーで110円の「ガラスコーティング液」は本当に使える？　試してみた結果（2024年04月29日）
ドコモで買える指輪「EVERING」、Visaのタッチ決済に対応　ただしSuicaには対応せず（2024年05月02日）
モバイルSuicaでの「通学証明書」、当日中承認の締め切りをもっと遅くできない？　JR東日本に聞いた（2024年05月02日）
パイオニアの車載スマートデバイス「NP1」を試して感じたイイところ、ムムムなところ　音声操作前提のドラレコ＆カーナビ（2024年05月02日）
PayPayキャンペーンまとめ【5月1日最新版】　最大20％還元や地域限定プレミアム付き商品券発売（2024年05月01日）
PayPayの「あなたのまちを応援プロジェクト」、6月以降に2自治体が追加　最大30％還元（2024年04月30日）
IIJmioのスマホ大特価セールで「moto g13」「moto g24」が110円に（2024年05月01日）
日本発売も期待の「Xiaomi 14 Ultra」レビュー　ライカ品質のカメラだけでなく全方位で満足できる名機だ（2024年05月01日）
ポケモンGO、幻のポケモン「ディアンシー」と出会える無料スペシャルリサーチ開催　5月1日から（2024年04月30日）
ドコモオンラインショップでGW限定セール　Galaxy S23やiPhone 14 Plusなどが1万1000円割引（2024年05月01日）

ランキングトップ30

最新トピックスPR

過去記事カレンダー

2024年

2023年

2022年

2021年

2020年

2019年

2018年

2017年

2016年

2015年

2014年

2013年

2012年

2011年

2010年

2009年

2008年

2007年

2006年

2005年

2004年

2003年

2002年

2001年

Feed Back

利用規約

ITmediaはアイティメディア株式会社の登録商標です。

OpenAI「GPT-4」リリース　司法試験で上位10％の賢さ、画像認識にも対応

検査用フレームワークのオープンソース化

関連記事

関連リンク

アクセストップ10

過去記事カレンダー

2024年

2023年

2022年

2021年

2020年

2019年

2018年

2017年

2016年

2015年

2014年

2013年

2012年

2011年

2010年

2009年

2008年

2007年

2006年

2005年

2004年

2003年

2002年

2001年

Feed Back

OpenAI「GPT-4」リリース 司法試験で上位10％の賢さ、画像認識にも対応

検査用フレームワークのオープンソース化

関連記事

関連リンク

アクセストップ10

過去記事カレンダー

2024年

2023年

2022年

2021年

2020年

2019年

2018年

2017年

2016年

2015年

2014年

2013年

2012年

2011年

2010年

2009年

2008年

2007年

2006年

2005年

2004年

2003年

2002年

2001年

Feed Back

OpenAI「GPT-4」リリース　司法試験で上位10％の賢さ、画像認識にも対応