ITmedia NEWS > AI+ >
速報
» 2019年02月15日 10時43分 公開

OpenAI、まことしやかなフェイクニュースも簡単生成の言語モデル「GPT-2」の限定版をオープンソース化

非営利の米AI研究企業OpenAIが、人間が冒頭テキストを与えるとコンテキストを判断して首尾一貫した続きの文章を生成する言語モデル「GPT-2」を発表。フェイクニュース生成などの悪用を懸念し、オープンソース化はしない。

[ITmedia]

 イーロン・マスク氏が共同会長を務める非営利の米AI(人工知能)研究企業OpenAIは2月14日(現地時間)、自然言語の文章を生成する言語モデル「GPT-2」を発表した。

 この技術が悪意あるアプリに流用される懸念から、GPT-2をオープンソース化はせず、縮小版モデル論文のみ公開した。

 GPT-2は、40Gバイト分のネット上のテキストの次の単語を予測するためだけに訓練されたTransformerベースの言語モデル。800万のWebページのデータセットで訓練し、15億のパラメータを持つ。

 大きな特徴は、固有の訓練用データセットではなく、Webページのデータセットをそのまま使ったことだ。Wikipediaやニュース、書籍など特定のデータで訓練された他の言語モデル(米GoogleのBERTなどを指すと思われる)よりも優れていると主張している。

 GPT-2は、文章の冒頭部分のテキストを与えると、与えられたテキストの文体と内容に適応し、現実で首尾一貫した文章を生成する。

 以下の公式ツイートの動画は、GPT-2の発表文の冒頭をモデルに与えて続きを生成させたサンプルのようだ。


 GPT-2が生成したサンプルとして、「アンデス山脈のこれまで人が入らなかった谷で、科学者がユニコーンの群れを発見した。驚くべきことに、ユニコーンは完璧な英語を話した」というテキストを与えて生成させた文章が紹介されている。「ラパス大学の進化論的生物学者であるペレス博士」がユニコーンを発見して群れに名前をつけたとか、ユニコーンがエイリアンの子孫であるかどうかはDNA鑑定で解明できると語ったとか、ある程度もっともらしい文章になっている。

 gpt 1 ユニコーン発見のフェイクニュース

 この文章は10回の試行の結果という。訓練に使ったデータセットでモデルがコンテキストに精通したジャンルでは、約50%妥当なサンプルを生成できるとしている。

 以下のサンプルは、お騒がせアイドルとして知られるマイリー・サイラスについてのフェイクニュース。「マイリー・サイラスは今日、ハリウッド大通りでAbercrombie & Fitchから万引きした」というテキストを与えた結果だ。「19歳の歌手が警備員にショップの外に連れ出されるところを写真にとられた」など、リアルな文章になっているが、繰り返しが多いのでこのままでは不自然だ。

 gpt 2 マイリー・サイラスが万引き、というフェイクニュース

 微調整すれば、サンプルをさらに制御できる可能性があり、例えばAmazonのレビューのデータセットでGPT-2を微調整すれば、星の数やカテゴリーなどの条件に基づいてレビューを生成することもできる。

 この言語モデルは、文章作成のアシスタントや対話エージェント、言語間の教師なし翻訳ツール、音声認識システムの強化などに活用できるが、一方で、フェイクニュースの生成、特定の人物のなりすまし、SNSに投稿する偽造コンテンツの自動生成、スパムやフィッシングコンテンツの自動生成などに悪用できるとOpenAIは懸念している。

Copyright © ITmedia, Inc. All Rights Reserved.