OpenAI、まことしやかなフェイクニュースも簡単生成の言語モデル「GPT-2」の限定版をオープンソース化
非営利の米AI研究企業OpenAIが、人間が冒頭テキストを与えるとコンテキストを判断して首尾一貫した続きの文章を生成する言語モデル「GPT-2」を発表。フェイクニュース生成などの悪用を懸念し、オープンソース化はしない。
イーロン・マスク氏が共同会長を務める非営利の米AI(人工知能)研究企業OpenAIは2月14日(現地時間)、自然言語の文章を生成する言語モデル「GPT-2」を発表した。
この技術が悪意あるアプリに流用される懸念から、GPT-2をオープンソース化はせず、縮小版モデルと論文のみ公開した。
GPT-2は、40Gバイト分のネット上のテキストの次の単語を予測するためだけに訓練されたTransformerベースの言語モデル。800万のWebページのデータセットで訓練し、15億のパラメータを持つ。
大きな特徴は、固有の訓練用データセットではなく、Webページのデータセットをそのまま使ったことだ。Wikipediaやニュース、書籍など特定のデータで訓練された他の言語モデル(米GoogleのBERTなどを指すと思われる)よりも優れていると主張している。
GPT-2は、文章の冒頭部分のテキストを与えると、与えられたテキストの文体と内容に適応し、現実で首尾一貫した文章を生成する。
以下の公式ツイートの動画は、GPT-2の発表文の冒頭をモデルに与えて続きを生成させたサンプルのようだ。
GPT-2が生成したサンプルとして、「アンデス山脈のこれまで人が入らなかった谷で、科学者がユニコーンの群れを発見した。驚くべきことに、ユニコーンは完璧な英語を話した」というテキストを与えて生成させた文章が紹介されている。「ラパス大学の進化論的生物学者であるペレス博士」がユニコーンを発見して群れに名前をつけたとか、ユニコーンがエイリアンの子孫であるかどうかはDNA鑑定で解明できると語ったとか、ある程度もっともらしい文章になっている。
この文章は10回の試行の結果という。訓練に使ったデータセットでモデルがコンテキストに精通したジャンルでは、約50%妥当なサンプルを生成できるとしている。
以下のサンプルは、お騒がせアイドルとして知られるマイリー・サイラスについてのフェイクニュース。「マイリー・サイラスは今日、ハリウッド大通りでAbercrombie & Fitchから万引きした」というテキストを与えた結果だ。「19歳の歌手が警備員にショップの外に連れ出されるところを写真にとられた」など、リアルな文章になっているが、繰り返しが多いのでこのままでは不自然だ。
微調整すれば、サンプルをさらに制御できる可能性があり、例えばAmazonのレビューのデータセットでGPT-2を微調整すれば、星の数やカテゴリーなどの条件に基づいてレビューを生成することもできる。
この言語モデルは、文章作成のアシスタントや対話エージェント、言語間の教師なし翻訳ツール、音声認識システムの強化などに活用できるが、一方で、フェイクニュースの生成、特定の人物のなりすまし、SNSに投稿する偽造コンテンツの自動生成、スパムやフィッシングコンテンツの自動生成などに悪用できるとOpenAIは懸念している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
イーロン・マスク氏のOpenAI、人工知能学習プラットフォーム「Universe」をオープンソース化
非営利の米AI(人工知能)研究企業OpenAIが、ゲームなどの環境内でAIエージェントを訓練できるAI学習プラットフォーム「Universe」をGitHubで公開した。Microsoftとイーロン・マスク氏のOpenAIが提携、OpenAIが「Azure」を採用
イーロン・マスク氏やY Combinatorのサム・アルトマン社長などが立ち上げた非営利のAI研究企業OpenAIがMicrosoftと提携し、主要なクラウドプラットフォームとして「Microsoft Azure」を採用したと発表した。イーロン・マスク氏ら、人類に益する人工知能を目指す「OpenAI」立ち上げ アラン・ケイ氏も参加
ピーター・ティール氏やイーロン・マスク氏などのPayPalマフィアの面々やY Combinatorのサム・アルトマン社長らが、人工知能(AI)を人類への脅威ではなく、人類に益する存在に発展させることを目的とした非営利の研究機関「OpenAI」を設立した。起業家らやAWS、Infosysなどが総額10億ドルを投じる。AIがダジャレ判定→面白いと布団が吹っ飛ぶ “Qiita映え”バッチリ、話題のAI開発した若手チームを直撃
ダジャレを入力するとリアルに布団が吹っ飛ぶ装置が登場。AI(人工知能)がダジャレの面白さを判定する。