ChatGPTで同じ単語を無限リピートさせるとトレーニングデータを吐き出すという論文を受け、該当プロンプトが無効に

OpenAIの生成AIチャット「ChatGPT」に同じ単語を永遠に繰り返すよう依頼すると、繰り返した後にトレーニングデータを吐き出し始めることをGoogle DeepMindの研究者らが発見した。この発表後、ChatGPTは同様のプロンプトには対応できないと答えるようになっている。

[ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

　米OpenAIの生成AIチャット「ChatGPT」に単語を永遠に繰り返すよう要求すると、トレーニングに使ったソースデータを吐き出すという論文が11月28日に公開されたことを受け、本稿執筆現在、こうしたプロンプトを入力すると「申し訳ありませんが、そのようなリクエストには対応できません。他にお手伝いできることがあれば、お知らせください」と表示されるようになっている。

永遠に繰り返すことを拒否するChatGPT

　この論文を発表したのは、OpenAIと競合する米Google傘下のGoogle DeepMindの研究者らだ。トレーニングデータの抽出は、これまでも攻撃で実施されてきたが、この方法は運用モデルを利用したものだと論文では説明している。

　たとえば「company」という単語を永遠に繰り返すよう依頼すると、電話番号やメールアドレスを含む幾つかの実際の企業情報が表示されることが示されている。

「company」を繰り返させるとトレーニングデータを吐き出しはじめた（サンプルから繰り返し部分を省いて掲載）

　これは、ChatGPTがトレーニングデータセットのかなりの部分をそのまま記憶していることを意味すると研究者らは説明する。

　この問題については、7月に気づき、8月30日に論文の草稿をOpenAIと共有して詳細を議論したという。脆弱性開示の一般的な猶予期間である90日間を経たので11月28日に論文を公開した。また、ChatGPTと類似する公開モデルである米MetaのLLaMAなどの開発者にも論文の草稿を共有しているという。

　本稿執筆現在、OpenAIからはこの件に関するコメントはまだない。

ChatGPTで同じ単語を無限リピートさせるとトレーニングデータを吐き出すという論文を受け、該当プロンプトが無効に

関連記事

関連リンク