プロナビ

初心者でも分かる生成系AI入門:ChatGPTが開いた「AIブーム3.5」の扉(前編)(1/2 ページ)

» 2023年06月07日 12時00分 公開
[i4U]
AIのイメージ AIのイメージ

この記事について

この記事は、オウンドメディア「i4U」(あいふぉーゆー)からの転載です。

i4Uとは

「あなたのためのインターネット(internet for you)」を掲げたメディアが「i4U」です。読者と一緒に楽しむインターネットの世界をメディア上に再現していき、あなたの世界にインパクトを与えることを目指しています。

筆者紹介:森川 幸人

ゲームAI設計者、グラフィック・クリエイター、モリカトロン株式会社代表取締役、筑波大学非常勤講師

ゲームAIの研究開発、CG制作、ゲームソフト、アプリ開発を行う。ゲーム「がんばれ森川君2号」「ジャンピング・フラッシュ」「アストロノーカ」「くまうた」「ねこがきた」などを開発。ゲームAIに関する論文「ゲームとAは相性がよいのか?」(2017年・人工知能学会)などを執筆。

Twitter:@morikawa1go


 ChatGPTやミッドジャーニー(Mid Journey、以下MJ)といった文章や絵を生成する「生成系AI」に関するニュースやウワサが毎日飛び交っています。すごいことは分かるけれど、じゃあどういう仕組みのものなのでしょう? 人工知能を取り入れたPlayStationのゲームソフト『がんばれ森川君2号』や『アストロノーカ』の作者で、AI入門書の名著『マッチ箱の脳(AI)―使える人工知能のお話』の著者としても知られるグラフィッククリエイターの森川幸人さんに、AIの長い歴史を踏まえつつ生成系AIについて、前後編に分けてゆるく教えてもらいました。前編は、生成系AIの仕組みにまつわる“超簡単な”お話です。

AIブーム3.5

 この記事の執筆を頼まれたのは2022年秋ごろで、ちょうどMJやステーブル・ディフュージョン(Stable Diffusion)などのテキスト(プロンプト)を与えるとそれに応じた絵を生成してくれるText to Image AIが話題になっていた時期でした。その話でも書いてお茶を濁そうかと考えていました。

 しかし、ここ最近は、絵を描くAIだけでなく文章を書くAI、総称して生成系AI(以下、GAI:Ganerative AI)が話題です。というのも、2022年の末に、例のChatGPTがリリースされ、テキスト生成AI(TGA)の方も驚くべき進化を遂げているのが明らかになってきたからです。

ChatGPTのホームページ OpenAIのChatGPTは全世界規模で話題を集めている。大規模言語モデル「GPT-4」がリリースされ、日本でもiPhoneからChatGPTアプリが使えるようになった

 生成系AIと近いAIで、汎用(はんよう)性人工生命もたまにGAI(General AI)と呼ぶことがありますので、少しややこしいところがあります。そんな理由からか、最近では汎用性人工生命をAGI(Artificial General Inteligence)と呼ぶようになってきましたが、GAIとAGIも、ややこしさの点では五十歩百歩の感があります。

 1980年代の第2次AIブームの頃から関わっている身としては、ここ最近のAIの進化スピード感には仰天するばかりで、関連論文を全く読み切れておらず、正直、最新の状況にもついていけていません。

 第3次AIブーム真っ只中で、特にここ最近はその中で生まれた小爆発期、「AIブーム3.5」といえる状況でしょう。

 Text to Image AI、GPT-x(GPT-xとはOpenAIが開発した言語AIのこと。GPT-xを基にしたチャットボットがChatGPT)、ChatGPTなどの詳細は、既にインターネット上にたくさんの良質な情報が存在していますので、詳しい情報や正確な情報はそちらにお任せするとして、ここでは初心者でも分かるざっくりした説明、かつ、あまり仕事に役に立ちそうにない情報を中心に書かせてもらおうかと思っております。

 というわけで、まずはText to Image AIとテキスト生成AIなど生成系AIの簡単な説明をして、その後、それらがもたらす未来の可能性と問題点について、長年AIに関わってきた立場から思いつくまま記します。

画像生成AI:「Text to Image AI」の超基本的な仕組み

 いまさらText to Image AI(以後、t2i)の説明ってのもなんだか周回遅れな感じもしますが、t2iとはその名の通り、テキスト(プロンプト)を与えるとそれに応じた絵を生成してくれるAIで、最近ではMJとStable Diffusion(以下、SD)が有名です。それ以前にもChatGPTを開発したOpen AIからはDALL-E 2、GoogleはImagen、他にもNVIDIAはGauGANを発表しています。

 MJやSDは新参者ですが、使い勝手の良いUI、基本無料の太っ腹なサービス、そして生成する絵のクオリティの素晴らしさで一気にトップになりました。

 t2iが登場する以前にも、絵の生成に長けたAIが存在しました。その代表格がGANファミリーです(GANとは「敵対的生成ネットワーク」と呼ばれるAIのこと)。ファミリーと書かざるを得ないくらいたくさんのバリエーション(アルゴリズム)が考案されています。

 GANがどうやって絵を生成するかを説明するのは結構大変なので、ここでは割愛させてもらいます。GANについてもネット上にたくさんの有用情報がありますので、詳しいことを知りたい方はそちらを参照してください。それこそ、“新しいbing”で検索すれば、とても“タイパ”(タイムパフォーマンス)が良くなりますよ。

 GANをざっくり説明するなら、見本となる絵を与えて、それにそっくりな絵を描けるように学習していくというアルゴリズムのことです。これは見本の絵の「特徴」を学習します。例えば「シマウマとは白い馬に黒い縦シマがある」といったものが特徴になります。形をまねる以上のこと、つまり特徴を学習するので、シマウマだけでなく、シマウマ化した象、シマウマ化した花瓶、シマウマ化したリンゴなどを描くこともできます。

 こうした特徴を抽出する能力に長けたGANファミリーの1つに、CyclickGANがあります。

 シマウマの絵を学習する際に、シマウマの絵に「シマウマ」という言葉(タグと呼びます)を付けて学習させると、シマウマの特徴の学習と同時に、「シマウマ」という名称もひも付けることができます。こうすると「シマウマ」というテキストを与えてやるだけでシマウマの絵を描くことができるようになるのです。

 これがt2iの基本的な仕組みです。

 ……と、超簡単に書いていますが、実際には、テキストの解釈でCLIPと呼ばれる自然言語処理AIが絡むなど、かなり複雑な仕組みでして、ガチで学びたい方はそれなりの覚悟と数学的知識が必要であることはお伝えしておかねばなりません。

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

最新トピックスPR

過去記事カレンダー