プロナビ

「ChatGPT」で話題 MicrosoftとOpenAIの関係と目指すものを整理Windowsフロントライン(2/3 ページ)

» 2023年02月02日 12時00分 公開

学習モデルと応用例

 深層学習(Deep Learning)を使ったOpenAIのプロジェクトはいくつか存在するが、代表的なものの1つが「Generative Pre-trained Transformer(GPT)」と呼ばれる自然言語処理(NLP:Natural Language Processing)を想定した学習モデルだ。

 「Transformer」と呼ばれる比較的新しい学習モデル概念を採用しており、2018年に「Improving Language Understanding by Generative Pre-Training」(PDF)のタイトルで論文として公開されている。これが今日でいう「GPT」に相当する最初の世代とされる。

 翌2019年初頭には「Generative Pre-trained Transformer 2」つまり「GPT-2」と呼ばれる第2世代のモデルが公開された。GPT-2初期公開から時間を経てブラッシュアップが行われ、最終的に同年末に完成版がリリースされている。

「Improving Language Understanding by Generative Pre-Training」のAbstract 「Improving Language Understanding by Generative Pre-Training」の摘要

 GPTはその名前からも分かるように、膨大なテキストの学習を経て事象や文章の繋がりを把握し、入力された命令(Prompt)に対して自然な形での応答を行うのが一連の処理の流れとなっている。Promptという名称から、WindowsにおけるコマンドプロンプトやLinuxのシェルのようなものを想像しやすいが、実際にはGPTが(目的に近い)回答しやすいようヒントや手順を与える手法に近い。

 例えば、国名を挙げてその首都を提示する例を与えると、次に別の国名に対してその首都をGPTが返してくるといった具合だ。GPTではインターネットなどから膨大なデータを集めて学習を行っているが、学習が行われた時点でのデータまでしか保有していない。

 そのため、例えば2019年時点の学習データしか持たないAIでは、2022年に移転先の名称が発表されたインドネシアの新首都「ヌサンタラ」の名称は把握できず、2024年に移転が完了しても現在の「ジャカルタ」を回答として返す可能性が高い。同様に、計算式を入力して回答を得る電卓的なプロンプトの使い方も可能だ。

 ただし、GPTでは計算式を“文字”として認識し、学習済みデータから“それっぽい”情報を引っ張ってくるだけで、“機械的に計算した”結果ではない点に注意したい。

 つまりGPTとは、世界に存在する膨大なデータの集積値から文章の繋がりを把握し、入力された値に対して結果を返しているに過ぎない。ただし、その学習データそのものが膨大であり、内容の真偽はともかく“極めて自然な回答”として戻ってくる点に特徴がある。

 この学習データは「コーパス(Corpus)」と呼ばれるが、GPT-2ではその際に用いられるパラメーター数が15億で、2020年に登場したGPT-3では1750億と100倍以上に増加している。正直なところ、GPT-3の世代で生成される文章は人間が書いたものを見分けがつかないものであり、それだけ学習済みモデルが優秀であることを意味している。

 2022年にはGPT-3に改良を加えた新しい学習モデルが「GPT-3.5」としてリリースされ、話題の「ChatGPT」はこのGPT-3.5をベースとしている。ChatGPTは対話型インタフェース、つまり「チャットボット」機能に特化したサービスだが、シンプルなテキストでの回答だけでなく、プログラミングからゲームまで、実にさまざまな機能をサポートしている。

 OpenAIではこの他、「DALL-E」や「Codex」といった仕組みを提供しているが、ベースとなっているのはGPTで培われた学習モデルである。DALL-Eは文章で指示を出すと、それに適したイラストを自動生成してくれる仕組みだ。「Microsoft Designer」というOfficeファミリーの製品でも「DALL-E 2」が採用されており、OpenAIとMicrosoft両社のつながりを感じさせる。

「DALL-E 2」を採用したグラフィックスデザインアプリ「Microsoft Designer」 「DALL-E 2」を採用したグラフィックスデザインアプリ「Microsoft Designer」

 ここ最近では、Stable Diffusionを使ったAIイラストが大ブームになったことが記憶に新しいが、Stable Diffusionがローカルでの実行を想定しているのに対し、DALL-Eはクラウド上で動くサービスを利用するという点で異なっている。

 Codexは「指示したプログラミングコードを自動生成する仕組み」であり、これは「GitHub Copilot」にも採用されている。このように自然言語処理を皮切りに、膨大な学習データを用いて応用分野を開拓しつつあるのが現状だ。

Copyright © ITmedia, Inc. All Rights Reserved.

最新トピックスPR

過去記事カレンダー