プロナビ

「ChatGPT」で話題 MicrosoftとOpenAIの関係と目指すものを整理Windowsフロントライン(2/3 ページ)

» 2023年02月02日 12時00分 公開

学習モデルと応用例

 深層学習(Deep Learning)を使ったOpenAIのプロジェクトはいくつか存在するが、代表的なものの1つが「Generative Pre-trained Transformer(GPT)」と呼ばれる自然言語処理(NLP:Natural Language Processing)を想定した学習モデルだ。

 「Transformer」と呼ばれる比較的新しい学習モデル概念を採用しており、2018年に「Improving Language Understanding by Generative Pre-Training」(PDF)のタイトルで論文として公開されている。これが今日でいう「GPT」に相当する最初の世代とされる。

 翌2019年初頭には「Generative Pre-trained Transformer 2」つまり「GPT-2」と呼ばれる第2世代のモデルが公開された。GPT-2初期公開から時間を経てブラッシュアップが行われ、最終的に同年末に完成版がリリースされている。

「Improving Language Understanding by Generative Pre-Training」のAbstract 「Improving Language Understanding by Generative Pre-Training」の摘要

 GPTはその名前からも分かるように、膨大なテキストの学習を経て事象や文章の繋がりを把握し、入力された命令(Prompt)に対して自然な形での応答を行うのが一連の処理の流れとなっている。Promptという名称から、WindowsにおけるコマンドプロンプトやLinuxのシェルのようなものを想像しやすいが、実際にはGPTが(目的に近い)回答しやすいようヒントや手順を与える手法に近い。

 例えば、国名を挙げてその首都を提示する例を与えると、次に別の国名に対してその首都をGPTが返してくるといった具合だ。GPTではインターネットなどから膨大なデータを集めて学習を行っているが、学習が行われた時点でのデータまでしか保有していない。

 そのため、例えば2019年時点の学習データしか持たないAIでは、2022年に移転先の名称が発表されたインドネシアの新首都「ヌサンタラ」の名称は把握できず、2024年に移転が完了しても現在の「ジャカルタ」を回答として返す可能性が高い。同様に、計算式を入力して回答を得る電卓的なプロンプトの使い方も可能だ。

 ただし、GPTでは計算式を“文字”として認識し、学習済みデータから“それっぽい”情報を引っ張ってくるだけで、“機械的に計算した”結果ではない点に注意したい。

 つまりGPTとは、世界に存在する膨大なデータの集積値から文章の繋がりを把握し、入力された値に対して結果を返しているに過ぎない。ただし、その学習データそのものが膨大であり、内容の真偽はともかく“極めて自然な回答”として戻ってくる点に特徴がある。

 この学習データは「コーパス(Corpus)」と呼ばれるが、GPT-2ではその際に用いられるパラメーター数が15億で、2020年に登場したGPT-3では1750億と100倍以上に増加している。正直なところ、GPT-3の世代で生成される文章は人間が書いたものを見分けがつかないものであり、それだけ学習済みモデルが優秀であることを意味している。

 2022年にはGPT-3に改良を加えた新しい学習モデルが「GPT-3.5」としてリリースされ、話題の「ChatGPT」はこのGPT-3.5をベースとしている。ChatGPTは対話型インタフェース、つまり「チャットボット」機能に特化したサービスだが、シンプルなテキストでの回答だけでなく、プログラミングからゲームまで、実にさまざまな機能をサポートしている。

 OpenAIではこの他、「DALL-E」や「Codex」といった仕組みを提供しているが、ベースとなっているのはGPTで培われた学習モデルである。DALL-Eは文章で指示を出すと、それに適したイラストを自動生成してくれる仕組みだ。「Microsoft Designer」というOfficeファミリーの製品でも「DALL-E 2」が採用されており、OpenAIとMicrosoft両社のつながりを感じさせる。

「DALL-E 2」を採用したグラフィックスデザインアプリ「Microsoft Designer」 「DALL-E 2」を採用したグラフィックスデザインアプリ「Microsoft Designer」

 ここ最近では、Stable Diffusionを使ったAIイラストが大ブームになったことが記憶に新しいが、Stable Diffusionがローカルでの実行を想定しているのに対し、DALL-Eはクラウド上で動くサービスを利用するという点で異なっている。

 Codexは「指示したプログラミングコードを自動生成する仕組み」であり、これは「GitHub Copilot」にも採用されている。このように自然言語処理を皮切りに、膨大な学習データを用いて応用分野を開拓しつつあるのが現状だ。

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2026年06月26日 更新
  1. Apple製品が一斉値上げ、Mac Studioは9万円超も 主要モデルの新価格まとめ (2026年06月25日)
  2. 血管の健康状態も可視化! サブスク不要で「振動通知」を備えた意欲作のスマートリング「RingConn Gen 3」を試す (2026年06月25日)
  3. Gemini搭載「Google Home スピーカー」は買いか? 6年ぶりの新モデルを試して分かった賢さと課題が見え隠れする“次世代機”の現在地 (2026年06月24日)
  4. 8980円の「SwitchBot 屋外パンチルトカメラ5MP」を試す 約500万画素で人物追跡、有線LAN接続も (2026年06月24日)
  5. 間もなく登場するWindows 11次期アップデート「26H2」で何が変わる? 2027年に向けたUI進化と高速化 (2026年06月23日)
  6. カジュアルゲーマーの最適解になる? 日本HPのゲーミングノートPC「HyperX OMEN 15」のIntelモデルを試す (2026年06月25日)
  7. 45gの伝統を破った「忍者」の感触を持つ1台 HHKB 30周年記念モデルがもたらす「軽さ」をじっくり試す (2026年06月24日)
  8. 手首の負担を減らす“逆チルト”が秀逸! Razer初の多機能エルゴキーボード「Pro Type Ergo」はオフィスの救世主に (2026年06月26日)
  9. ロジクール、軽快な操作感を実現した軽量ワイヤレスゲーミングマウス (2026年06月25日)
  10. ソースネクスト、スケルトンデザイン筐体を採用した小型軽量エントリーデジカメ (2026年06月25日)
最新トピックスPR

過去記事カレンダー