キーワードから小説や画像を自動生成　自然言語処理の革命児「GPT-3」の衝撃（2/2 ページ）

「GPT-3」「OpenAI」というキーワードが人工知能界隈で飛び交っている。これはいったい何なのか、どこがすごいのか、探ってみた。

[山下裕毅，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

前のページへ | 　　　　　　

GPT-3の可能性

　GPT-3は、次に来る単語の予測を学習する。予測した単語を組み合わせて文章を出力する。学習は、大量の文章（Wikipedia英語版など）を用い、正解は与えられず、文脈にある単語との関係性について分析してパターンを学習していく。

　特徴は、これまでの自然言語処理モデルで使用されてきたタスク固有のデータセットと微調整を行わないことだが、複数の自然言語処理ベンチマークで優れた結果を示した。

　タスク固有のデータセットや微調整を行わなくても良い結果が得られることは、OpenAIが2020年1月に発表した「Scaling Laws for Neural Language Models」という論文で既に結論付けていた。Transformerベースのモデルの性能は、「モデルパラメーターの数」「データセットサイズ」「学習に使用される計算量」の3つの変数に応じて累乗則でスケーリングするという内容だ。性能を高めたいのであれば、タスク固有のデータセットや微調整を探求するのではなく、これら3つの変数を増やすことが効果的だという。

　この法則を実証するため、GPT-3では、パラメーター数1億2500万から1750億個のモデルサイズを学習し性能を比べた。最大の1750億個は、当時多いとされた米Microsoft開発の言語モデル「Turing-NLG」の170億個をはるかに超える。結果は、パラメーターの増加に伴い性能が向上することを示した。他方で、1750億個以上のモデルは実験されていないため、どれくらいまで適応できるか分かっていない。まだ上限が見えていないともいえる。

　GPT-3は汎用性が高いモデルだ。OpenAIはGPT-3発表から5カ月後の2020年10月、「Scaling Laws for Autoregressive Generative Modeling」という論文を発表した。画像、動画、マルチモーダル（画像とテキスト間）、数学の4つの領域において、この法則が適応できるか検証した内容だ。画像や動画には、1億枚のラベル付き画像データセット「Yahoo Flickr Creative Commons 100M」を使用。結果は、全てのドメインにおいて適用できることを示し、汎用性の高さを理論的に実証した。

　この流れからOpenAIは2021年1月、言語から画像を生成するGPT-3（120億個のパラメータ数）を用いたモデル「DALL・E」を発表した。簡単な説明文を入力に、その文章の内容に適した画像を生成するモデルだ。例えば、説明文の「バレリーナ用の衣装を着て犬を散歩する大根の赤ちゃん」に対して、以下の画像を生成する。

「バレリーナ用の衣装を着て犬を散歩する大根の赤ちゃん」という説明文を入力に出力された画像

　このように、言語から画像を生成するタスクにおいても高い精度を世に知らしめた。

　ここまでの変遷から分かるように、OpenAIはここ数年、GPTの開発を積極的に行なっている。GPT-3が掲載される論文の著者数を見ても、31人（OpenAIの従業員数は2020年時点で約120人）と多くの人材リソースを投入し本気度が伺える。このことからも今後数年、OpenAIが世間を驚かせる論文を発表するであろうと予想できる。

キーワードから小説や画像を自動生成 自然言語処理の革命児「GPT-3」の衝撃（2/2 ページ）

GPT-3の可能性

関連記事

キーワードから小説や画像を自動生成　自然言語処理の革命児「GPT-3」の衝撃（2/2 ページ）