GPT-5について、OpenAIは「OpenAI史上最も賢く、速く、有用なフラグシップモデル」と表現。またアルトマンCEOも、GPT-5は「博士号取得者(PhD)レベルの専門家のように賢い」と絶賛し、それがAGI(汎用人工知能)の実現に向けた「極めて重要な一歩」になるものだと位置付けた。
では、GPT-5の性能とはどの程度のものなのだろうか。実際のところ、GPT-5は各種ベンチマークで優秀な成績を収めている。例えば、AIME(American Invitational Mathematics Examination、米国の高校生向け数学コンテスト)2025の問題において、GPT-5は補助ツールを使用しない状態で94.6%というスコアを記録したという。
これは競技レベルの数学問題でほぼ完璧に回答できることを示しており、これまでのモデルで最高だった「o3」の88.9%というスコアを上回った。またいわゆるハルシネーションの点でも改善が見られる。ある調査では、もっとも回答が難しいとされる医療関係の質問でも、後述する「思考モード」において1.6%までハルシネーションの出現率が低下した(GPT-4oでは15.8%)。
しかしOpenAIの思惑とは裏腹に、リリースの直後から、GPT-5に対する批判が噴出した。まず指摘されたのは、性能面での問題だ。ユーザーから「出力品質が低下した」「以前より頭が悪くなった」といった声が相次いだ。
これは単なる印象ではなく、例えば米ロサンゼルスタイムズ紙によれば、あるユーザーがGPT-5に英単語「blueberry」に「b」という文字がいくつ含まれるかと尋ねたところ、GPT-5は初回の回答で「3つ」と誤答し、再度「もっとよく考えて」と促すとようやく正しい答えを返したという事例が発生している。
また米The Vergeは、GPT-5が米国に存在しない州の名前を捏造(ねつぞう)したり、ネバダ州をカリフォルニア州の一部とラベル付けしたりするようなミスも犯したと報じている。
これには明確な理由があった。実はGPT-5は1つの高度なモデルではなく、複数のモデルから構成されている。簡単に言うと、単純な問いにさっと答える「高速(Fast)モデル」と、複雑な問いにじっくり考えて答えを出す「思考(Thinking)モデル」があり(有料版ユーザーには「Pro」というより優秀なモデルもある)、ユーザーの質問に応じてどちらを使うかを「ルーター」が自動で選ぶ仕組みになっている。
しかしOpenAIの説明によれば、発表当初このルーターに不具合が生じていた。そのためモデルの自動選択が行われず、深くじっくり考えるべき問いに、あっさりと答えてしまうという事態が頻発。結果として、アルトマンCEOの表現を借りれば「GPT-5が実態よりもずっと間抜けに見えた」のだという。
であれは、ルーターの不具合が直れば問題はなくなるはずだ。また現在、有料版のユーザーは「高速」「思考」「プロ」のどのモードを使うかを明示的に選べるようになっており、ちょっと手間がかかるとはいえ前述のような間違いは防止できる。
にもかかわらず、研究者やユーザーからの不満の声は続いている。それはGPT-5の進歩が、革新的というより漸進的なものだったからだ。
Copyright © ITmedia, Inc. All Rights Reserved.