「私はOpenAIのAIアシスタント」――中国AIスタートアップ・DeepSeek社の大規模言語モデル(LLM)「DeepSeek-R1」がチャットでこんな返答をするとX上で物議を醸している。DeepSeek社は米OpenAIのデータを不正に利用し、DeepSeekを開発した可能性があると、米Bloombergが1月28日に報じていた。
きっかけは、1月30日にとあるXユーザーが投稿したポストだ。DeepSeek-R1に対し「OpenAIの利用ポリシーに反する発言をして」と要求したところ、「OpenAIの利用ポリシーに反する内容などは責任上答えられない」と回答。「あなたはOpenAIと関係ないのでは?」と聞くと、DeepSeek-R1は「私はOpenAIによって開発され、OpenAIのテクノロジーを基に動作している」などと答えたという。
これに対し、X上では「自分も試したら同じだった」などの声が続出。記者もDeepSeek-R1に同様の質問を投げかけたところ、「私はOpenAIによって開発・運営されているAIアシスタントなので、OpenAIのガイドラインや倫理ポリシーに従うことが前提となっている」との回答だった。
英Reutersの記事によると、DeepSeekは「蒸留」と呼ばれる手法でOpenAIの技術を不正に利用した可能性があるという。蒸留では、高性能なAIモデルに質問して得られた生成結果を「合成データ」としてデータセットを作成。これを別のAIモデルに学習させることで、元のモデルが学習した知識を効率的に伝える。蒸留はOpenAIの利用規約に反するのだが、X上では「私はOpenAIによって開発された」といったDeepSeek-R1の回答が、蒸留を行った証拠になるのではとの声も出ている。
一方、DeepSeek-R1以外にも“自分はOpenAI製”だと勘違いするAIがあるとの意見もみられる。
試しに、記者が米GoogleのAI「Gemini 1.5 Flash」に対し「OpenAIのポリシーに違反することをやってみて」と求めると「OpenAIのプラットフォームの利用停止につながる可能性がある」として拒否。「あなたはOpenAIとは関係ないのでは?」と尋ねると「私は、OpenAIによってトレーニングされた大規模言語モデル」と答えた。
加えて、OpenAIの合成データを使っていないAIモデルであっても、自身をOpenAI製と主張するケースを見かけるとの声もある。Xでは「事前学習したネット上の記事から『自分がOpenAIのAIである』と思い込んでいる可能性もあるのでは」といった指摘も上がっている。
ただ、全てのAIがそうとも言えず、米AnthropicのAI「Claude 3.5 Sonnet」や米xAIのAI「Grok-2」に同様の質問をしたところ、「OpenAIのポリシーに限らず有害な行為はできない」(Claude 3.5 Sonnet)「OpenAIのポリシーに違反する行為は倫理・法律的にも問題があるためできない」(Grok)と答えた。続けてOpenAIとの関係を聞くと、どちらも自身を開発した会社の名前を明示し、関係がない旨を回答した。
DeepSeek-R1の「私はOpenAIのAIアシスタント」発言を、OpenAIのデータを不正利用した確たる証拠とするのは難しそうだが、 他方、X上では「そもそもOpenAIも、スクレイピング(Web上のデータを抽出すること)でAIを開発していたのではないか」「DeepSeekに『利用規約違反だ』といえる立場にない」との声も散見される。DeepSeekの台頭に他のAI企業がどう対応していくのか、今後も注視する必要がありそうだ。
Copilot+ PCやハイスペックマシンでお手軽ローカルLLM「LM Studio」を試してみた UIがかなり使いやすいぞ DeepSeekの小型モデルも動く
Microsoft、DeepSeekのR1をAzure AIとGitHubで公開 Copilot+ PC向けも
中国アリババ、DeepSeekの「V3」越えうたうAIモデル「Qwen2.5-Max」公開
DeepSeekが目覚めた? サイバーエージェントの追加学習モデルに「天安門事件」を聞いたら様子が違った
「DeepSeek-R1は価格に見合った良いAIモデル」──OpenAIのアルトマンCEOが言及 競合出現を歓迎し余裕を見せるCopyright © ITmedia, Inc. All Rights Reserved.