ChatGPTやミッドジャーニー（Mid Journey、以下MJ）といった文章や絵を生成する「生成系AI」に関するニュースやウワサが毎日飛び交っています。すごいことは分かるけれど、じゃあどういう仕組みのものなのでしょう？　人工知能を取り入れたPlayStationのゲームソフト『がんばれ森川君2号』や『アストロノーカ』の作者で、AI入門書の名著『マッチ箱の脳（AI）―使える人工知能のお話』の著者としても知られるグラフィッククリエイターの森川幸人さんに、AIの長い歴史を踏まえつつ生成系AIについて、前後編に分けてゆるく教えてもらいました。前編は、生成系AIの仕組みにまつわる“超簡単な”お話です。

AIブーム3.5

　この記事の執筆を頼まれたのは2022年秋ごろで、ちょうどMJやステーブル・ディフュージョン（Stable Diffusion）などのテキスト（プロンプト）を与えるとそれに応じた絵を生成してくれるText to Image AIが話題になっていた時期でした。その話でも書いてお茶を濁そうかと考えていました。

　しかし、ここ最近は、絵を描くAIだけでなく文章を書くAI、総称して生成系AI（以下、GAI：Ganerative AI）が話題です。というのも、2022年の末に、例のChatGPTがリリースされ、テキスト生成AI（TGA）の方も驚くべき進化を遂げているのが明らかになってきたからです。

OpenAIのChatGPTは全世界規模で話題を集めている。大規模言語モデル｢GPT-4｣がリリースされ、日本でもiPhoneからChatGPTアプリが使えるようになった

　生成系AIと近いAIで、汎用（はんよう）性人工生命もたまにGAI（General AI）と呼ぶことがありますので、少しややこしいところがあります。そんな理由からか、最近では汎用性人工生命をAGI（Artificial General Inteligence）と呼ぶようになってきましたが、GAIとAGIも、ややこしさの点では五十歩百歩の感があります。

　1980年代の第2次AIブームの頃から関わっている身としては、ここ最近のAIの進化スピード感には仰天するばかりで、関連論文を全く読み切れておらず、正直、最新の状況にもついていけていません。

　第3次AIブーム真っ只中で、特にここ最近はその中で生まれた小爆発期、「AIブーム3.5」といえる状況でしょう。

　Text to Image AI、GPT-x（GPT-xとはOpenAIが開発した言語AIのこと。GPT-xを基にしたチャットボットがChatGPT）、ChatGPTなどの詳細は、既にインターネット上にたくさんの良質な情報が存在していますので、詳しい情報や正確な情報はそちらにお任せするとして、ここでは初心者でも分かるざっくりした説明、かつ、あまり仕事に役に立ちそうにない情報を中心に書かせてもらおうかと思っております。

　というわけで、まずはText to Image AIとテキスト生成AIなど生成系AIの簡単な説明をして、その後、それらがもたらす未来の可能性と問題点について、長年AIに関わってきた立場から思いつくまま記します。

画像生成AI：「Text to Image AI」の超基本的な仕組み

　いまさらText to Image AI（以後、t2i）の説明ってのもなんだか周回遅れな感じもしますが、t2iとはその名の通り、テキスト（プロンプト）を与えるとそれに応じた絵を生成してくれるAIで、最近ではMJとStable Diffusion（以下、SD）が有名です。それ以前にもChatGPTを開発したOpen AIからはDALL-E 2、GoogleはImagen、他にもNVIDIAはGauGANを発表しています。

プロイラストレーターが最近のAI「どうすんだこれ感」について思ったこと

　MJやSDは新参者ですが、使い勝手の良いUI、基本無料の太っ腹なサービス、そして生成する絵のクオリティの素晴らしさで一気にトップになりました。

　t2iが登場する以前にも、絵の生成に長けたAIが存在しました。その代表格がGANファミリーです（GANとは「敵対的生成ネットワーク」と呼ばれるAIのこと）。ファミリーと書かざるを得ないくらいたくさんのバリエーション（アルゴリズム）が考案されています。

　GANがどうやって絵を生成するかを説明するのは結構大変なので、ここでは割愛させてもらいます。GANについてもネット上にたくさんの有用情報がありますので、詳しいことを知りたい方はそちらを参照してください。それこそ、“新しいbing”で検索すれば、とても“タイパ”（タイムパフォーマンス）が良くなりますよ。

　GANをざっくり説明するなら、見本となる絵を与えて、それにそっくりな絵を描けるように学習していくというアルゴリズムのことです。これは見本の絵の「特徴」を学習します。例えば「シマウマとは白い馬に黒い縦シマがある」といったものが特徴になります。形をまねる以上のこと、つまり特徴を学習するので、シマウマだけでなく、シマウマ化した象、シマウマ化した花瓶、シマウマ化したリンゴなどを描くこともできます。

　こうした特徴を抽出する能力に長けたGANファミリーの1つに、CyclickGANがあります。

　シマウマの絵を学習する際に、シマウマの絵に「シマウマ」という言葉（タグと呼びます）を付けて学習させると、シマウマの特徴の学習と同時に、「シマウマ」という名称もひも付けることができます。こうすると「シマウマ」というテキストを与えてやるだけでシマウマの絵を描くことができるようになるのです。

　これがt2iの基本的な仕組みです。

　……と、超簡単に書いていますが、実際には、テキストの解釈でCLIPと呼ばれる自然言語処理AIが絡むなど、かなり複雑な仕組みでして、ガチで学びたい方はそれなりの覚悟と数学的知識が必要であることはお伝えしておかねばなりません。

テキスト生成AIは古くから存在する

プロイラストレーターが最近のAI「どうすんだこれ感」について思ったこと
IT業界に限らず、AI関連の話題がホットだ。プロイラストレーターのrefeiaさんに、昨今の事情を踏まえて思いの丈をまとめてもらった。
「ChatGPT」とは一味違ってさらに便利！　Googleとの違いは？　Microsoft Bingの「AI検索」を試して分かったこと
Microsoftが2月7日（米国太平洋時間）、自社の検索エンジンとWebブラウザにOpenAIの「次世代大規模言語モデル」を実装することを発表した。ChatGPTとは何が違うのか、実際に使って検証してみよう。【更新】
「Apple Vision Pro」を先行体験！　かぶって分かった上質のデジタル体験
AppleがWWDC23にて発表したMRヘッドセットが「Vision Pro」だ。これまでのAR／VRなどのHMDデバイスと何が違うのだろうか。林信行氏が真っ先にかぶって分かったことをまとめた。
「ChatGPT」で話題　MicrosoftとOpenAIの関係と目指すものを整理
Microsoftが、OpenAIへ3回目の投資が行われた。両者のつながりと、今後のMicrosoft製品への導入に関する話をまとめてみた。
「Microsoft Security Copilot」によるAIセキュリティ対策　“人力”任せからの脱却につながるか
Microsoftが最近推し進めているアプリへの「AIコパイロット」機能の搭載。そのポートフォリオに「セキュリティ」が加わる。同社は、セキュリティ対策にどのようにAIコパイロットを適用しようとしているのだろうか。

　　　　　　 1|2 次のページへ

SpecialPR

アクセストップ10

2024年04月28日更新

Microsoftが「MS-DOS 4.0」をオープンソース化　IBMの協力で（2024年04月26日）
Wi-Fi 7対応のゲーミングルーターがASUSからデビュー（2024年04月27日）
Steamで「ゴールデンウィークゲームフェス」開催中！　最大90％オフも（2024年04月27日）
プロセスノードに加えて新技術も売り込む！　Intelが半導体の「受託生産」で使う“武器”【後編】（2024年04月26日）
aiwa、5K撮影に対応した小型アクションカメラ「aiwa cam S5K」など2製品（2024年04月26日）
8K／30fpsで撮影できる「Insta360 X4」は想像以上のデキ　気になる発熱と録画可能時間を検証してみたら（2024年04月26日）
あなたのPCのWindows 10／11の「ライセンス」はどうなっている？　調べる方法をチェック！（2023年10月20日）
LGエレ、キャリブレーションセンサーを標準付属した4K対応の27型/31.5型液晶ディスプレイ（2024年04月26日）
ワコムが有機ELペンタブレットをついに投入！　「Wacom Movink 13」は約420gの軽量モデルだ（2024年04月24日）
「Windows 11 Home」をおトクに「Windows 11 Pro」へアップグレードする方法（2022年04月15日）

ランキングトップ30

最新トピックスPR

過去記事カレンダー

2024年

2023年

2022年

2021年

2020年

2019年

2018年

2017年

2016年

2015年

2014年

2013年

2012年

2011年

2010年

2009年

2008年

2007年

2006年

2005年

2004年

2003年

Feed Back

利用規約

ITmediaはアイティメディア株式会社の登録商標です。

初心者でも分かる生成系AI入門：ChatGPTが開いた「AIブーム3.5」の扉（前編）（1/2 ページ）

この記事について

i4Uとは

筆者紹介：森川 幸人