先述の通り、現在公開されているChatGPTは、あくまでも「研究用プレビュー版」である。商用版ではないし、何らかの「正解」を導き出すためのサービスでもない。
ChatGPTはネットにある情報を分類しつつ、深層学習(ディープラーニング)を継続的に行っている。即時というわけではないが、回答に使われる学習データのアップデートも実施されている。
このことはメリットでもありデメリットでもある。比較的古い出来事や基本的な学問の知識には秀でている一方、間違った情報をすぐに正せず、誤情報を“自信を持って”答えてしまうこともあるのだ。
間違った情報については、そもそもの学習データが少ないゆえにもたらされることもあるようである。その一例が「日本の歴史」である。欧米(特にヨーロッパ)の歴史と比べると、日本の歴史はグローバルレベルでの文献が少ないせいか、でたらめな回答をしてくるケースが少なからずある。鎌倉時代に活躍した「後醍醐天皇」について質問した所、在位期間はもちろんのこと実績もでたらめな回答をされた際は驚いてしまった。
これは理系科目でも同様の傾向にある。ChatGPTに数学や物理(理科)の文章題を入力すると、その結果(≒回答)を“自信たっぷりに”出力してくれる。解法を知らないと「スゴい!」となってしまいがちだが、解法通りに解いてみると、実は間違っているというケースも少なくない。
試しに、2020年度大学入試センター試験の本試験の「理科2(物理)」で出題された以下の問題を入力してみてほしい(文章として入力するために一部を改めている)。
質量がMで長さが3lの一様な棒の端点Aに軽い糸で物体をつなぎ、端点Aからlだけ離れた点Oで棒をつるすと、棒は水平に静止した。このとき、物体の質量mを表す式を求めよ。
本来の答えは「2分の1エム」なのだが、ChatGPTがどう「答える」のか、ぜひ試してみてほしい。
このような誤答の原因は、主に「教師データの不足」や「学習データの分類や正規化の質」に起因しており、ChatGPT自体の品質が悪いわけではない。事実、学習データが多そうな学術論考について質問してみると、思った以上に質の良い回答を出してくる。「ChatGPTに論文の草案を出してもらおう」という人もいるほどである。
なお、ChatGPTのベースとなっているGPT-3.5を使い、特定目的で学習を強化/調整するとまた違う世界が開ける。米コーネル大学の研究によると、米国の司法試験(Bar Examination)において全国共通で課される問題の1つ「NCBE MBE」(※1)の模擬試験をGPT-3.5に回答させた所、平均正答率が50.3%となったという。
人間の平均正解率との差は約18ポイントとなったそうだが、学習がさらに進めば「試験に合格できるチャットボット」が登場する可能性もある。
(※1)MBE(Multistable Bar Examination):合計200問の4択問題。制限時間は3時間で、200問中175問が採点対象となる(どの設問が採点対象/非対象なのかは分からない)
Copyright © ITmedia, Inc. All Rights Reserved.