メディア

ChatGPTを“締め出した”あのプラットフォームが方向転換　「ウソ」ばかりつくAIと共存できる？：CIO Dive

ChatGPTが生成する回答は人間のエンジニアに比べて精度が低いという研究結果が発表された。AIが「不正確な回答」を生成することに対し、われわれはどのように対処すべきか。ChatGPTを早々に"締め出した"プラットフォームの方向転換とは。

» 2023年09月25日 13時40分公開

この記事は会員限定です。会員登録すると全てご覧いただけます。

　ChatGPTをはじめとする生成AI（人工知能）の回答率の低さへの疑念が払拭されない一方で、生成AI利用には生産性の向上という恩恵があることも否定できない。われわれは生成AIとどのように付き合うべきか。ChatGPTを早々に"締め出した"プラットフォームがAIとの共存について打ち出した新しい方針とは。

ChatGPTを締め出したプラットフォームが「方向転換」　

　2023年8月10日に発表された米パデュー大学の研究によると、対話型の生成AI（人工知能）「ChatGPT」がソフトウェアエンジニアリングに関して生成する回答は、インターネットコミュニティ「Stack Overflow」のユーザーほど正確ではないようだ。研究者は、ChatGPTが生成した517問の回答を人間のプログラマーによる回答と比較した（注1）。

　Stack Overflowは、一カ月当たり1億人以上の開発者やエンジニアが利用する質疑応答のプラットフォームだ。ユーザーはコーディングに関連する質問をし、回答を得ることができる。ただし、質問したテーマに詳しい人が回答するのを待つ必要がある（注2）。

　研究者によると、ChatGPTが生成した回答の半数以上は不正解だったという。「コードのフォーマットや、プログラムの機能を定義するセマンティクス、コードの"文法"に相当するシンタックスに関連する間違いがあった」。調査によると、ChatGPTの回答は5件に3件以上が人間が書いた回答よりも冗長だった。

　Stack Overflowは、ChatGPTが生成したテキストの投稿を早い時期に制限したWebサイトの一つだ。他企業がデータプライバシーへの懸念を示していたのに対して、Stack Overflowは正確性をより重視した（注3）。ChatGPTのサービス提供開始から1週間もたたないうちに、Stack Overflowは「不正確な回答が当サイトの信頼性を低下させる恐れがある」という声明を公表。開発者やエンジニアがChatGPTを利用して生成した回答をStack Overflowに投稿することを禁止した。

　しかし、ChatGPTがコーディングやより広範なIT業務に与える影響への関心が高まるにつれて、Stack Overflowには「より高速な代替ツールにユーザーを奪われるのではないか」という懸念が生じた。

　2023年6月にStack Overflowがエンジニア約9万人を対象に実施した調査によると、開発者の3分の1が「AIでソフトウェア作成プロセスを強化する最大の利点は生産性の向上だ」と考えている（注4）。

　Stack Overflowは2023年4月に投稿した同社の公式ブログ記事で、「公開プラットフォームと有料サービスにAIを組み込む」と発表して、生成AIに関する方針を変えた。しかし、同サイトのユーザーは、AIが生成した回答の妥当性や情報過多であること、個々の投稿者のデータプライバシーについて依然として懸念を抱いている（注5）。

　パデュー大学の研究結果を受けて、Stack Overflowのエレン・ブランデンバーガー氏（プロダクトイノベーションディレクター）は「AIを利用したツールが不正確な内容を生成する可能性があるという研究結果に驚きはない」と電子メールで述べた。「ここ数カ月間、われわれのチームは生成AIの成長に必然的な次のステップとして、コミュニティーとAIが一緒になるというビジョンを説いてきた」（ブランデンバーガー氏）

　Stack Overflowは2023年7月27日、生成AIを利用した開発者向けサービス「OverflowAI」の提供を開始した（注6）。OverflowAIはStack Overflowの他、「Stack Overflow for Teams」で利用できる。この2つのサービスは、ユーザーが5800万件以上の質問とそれに対する回答をチェックして検証・属性付けし、（AIの）正確さと信頼性を確認するためのプラットフォームとして機能している。

　カリフォルニア大学バークレー校の研究者は、OpenAIの大規模言語モデルの動作が時間の経過と共に著しく悪化するケースがあることを発見した（注7）（注8）。就職試験で利用されるプログラミングの問題を集めた「LeetCode」の簡単なカテゴリから50のコード生成問題を提示したところ、最新版の大規模言語モデル（LLM）のGPT-4が生成した実行可能なコードの割合は、2023年3月の52％から同年6月には10％まで低下した。GPT-3.5のパフォーマンスは22％から2％に低下している。

　また、Stack Overflowの2023年におけるトラフィックは対2022年比で平均5％減少していると（注9）、同社は2023年8月第2週に投稿されたブログ記事で明らかにした。「インターネットの未来と現代の技術環境は、Webトラフィックだけでは測れない。コンテンツの質や信頼、コンテンツをキュレーションする専門家と人間のコミュニティーが重要だ」（Stack Overflow）

　同社は、コーダー初心者が生成AIツールをより頻繁に活用するようになるにつれて、またStack Overflowにユーザーを呼び込む新たな質問が増えるにつれて、トラフィックが過去の水準から変化し続けることを期待している。

　「CIO Dive」はChatGPTを提供しているOpenAIにコメントを要請したが、回答は得られなかった。

（注1）Who Answers It Beer? An In-Depth Analysis of ChatGPT and Stack Overflow Answers to Soware Engineering Qestions（Purdue University research、PDF）
（注2）Every developer has a tab open to Stack Overflow（Stack Overflow）
（注3）OpenAI’s ChatGPT hiccups serve as a fresh reminder of AI flaws（CIO Dive）
（注4）Developers remain split on trusting AI, citing accuracy concerns（CIO Dive）
（注5）Stack Overflow embraces generative AI as developers voice concerns（CIO Dive）
（注6）Announcing OverflowAI（Stack Overflow）
（注7）With new versions of ChatGPT, improvement is not guaranteed, researchers find（CIO Dive）

（注8）ChatGPTが“ばか”になっている？　研究で明らかになった「噂の真相」（ITmedia エンタープライズ）

（注9）Insights into Stack Overflow’s traffic（Stack Overflow）

（初出）ChatGPT comes up short when compared to Stack Overflow responses

原文へのリンク

ChatGPTが“ばか”になっている？　研究で明らかになった「噂の真相」
「ChatGPTが“ばか”になっている」「しかも有料版の方が無料版よりもまずい回答をしている」といったうわさは本当か？　スタンフォード大学とカリフォルニア大学の研究結果を紹介する。
動き出した「日の丸LLM」プロジェクトの"中身"――日本学術会議の講演から探る
生成AIの基盤技術であるLLMの開発競争が注目される中で、「日本語力」を前面に押し出す「日の丸LLM研究開発プロジェクト」が本格的に始動した。その中身と可能性は――。
Zoomの「個人データ利用」はなぜ批判されたのか　顛末を振り返る
AIを利用したサービスを活用する際に、個人データが収集されることへの懸念は根強い。Zoomはこの懸念に応える形で利用規約を改訂したが、それでも批判は続いた。なぜか。
OpenAI、企業向けにChatGPT Enterpriseを発表　GPT-4への無制限アクセスを実現
OpenAIは企業向けChatGPTとして「ChatGPT Enterprise」を発表した。高いセキュリティや無制限のGPT-4アクセス、長文テキスト処理、高度なデータ分析などを備えているという。