このように、日本的なニュアンスへの翻案に成功していることが分かる。
たかだか30時間、70万枚でこれだけ日本風に寄せられるのだから、より多くのデータを集めれば、もっと効率的にもっと効果的に日本風の画風を再現することは容易になるだろう。
ただし、「サッカーをする男の子」で出力させようとすると、まだまだ欧米のバイアスに引っ張られている。
これは、筆者がとりあえず見せた日本のテレビ番組のなかでサッカーをする男の子が登場するシーンが極端に少ないからではないだろうか。そもそもテレビには子役以外の子供というのは滅多に出てこない。ここも学習データで工夫が必要と思われるところだ。今後の課題としたい。
『フィフス・エレメント』という映画で、長い眠りから目覚めたヒロイン、リー・ルーが、人類の情報を短期間に大量に学習し涙を流すというシーンがある。古くは米国ABCのドラマ『Max Headroom(邦題:未来テレビネットワーク23(NHK))』では、コンピュータ再構成された人格であるマックスが、テレビ局のコンピュータに寄生し、放映中のテレビ番組を見ながら同時にツッコミを入れるなんていうシーンもある。
テレビは、24時間近い時間軸で無数の番組が流れているという点で理想的な学習媒体であるといえる。しかも、映像と音声のマルチモーダルで、内容もニュースからバラエティ、ドラマ、教養番組など多岐に渡る。
もう1つの発見は、普通、30万枚も学習させたらオーバーフィッティング、つまり過学習が起きてボロボロになってしまいそうなものだが、ZelpmDiffusionでは安定して高画質なものが生成されている。
原理的にはWaifuDiffusionやtrinartなど、StableDiffusionの派生系も相当数の画像を追加学習させている。それで破綻していないということであれば、見せれば見せるほど画質が上がっていくことが期待できる。
筆者は新たに300万枚のアノテーションデータを準備中で、これを学習させればさらに効果的な結果が得られるのではないかと期待している。
なにしろ規模が大きいので個人プロジェクトの域を大幅に飛び越えてしまうが、さらに精度を上げるべく、独自のAI学習用データを作る方法も構想中である。これも結果が出たら、この連載で報告させていただきたい。
まだ開発途上であり、荒削りではあるが、ZelpmDiffusionはひとまず筆者の運営するMemeplexのサブスクリプションユーザー向けに実験的に提供する予定である。
新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。2005年、IPA(情報処理推進機構)より「天才プログラマー/スーパークリエイタ」として認定。株式会社ゼルペム所属AIスペシャリスト。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。
日本を画像生成AIで再現する 「自分の見た景色」を学習したAIは強力な思い出再生装置に
AIでどこまでできる? 絵心のないプログラマーが「ChatGPT」と「作画AI」でマンガを描いてみた
動画も音楽もゲームも 広がるAIエンターテインメントの可能性
まさに「世界変革」──この2カ月で画像生成AIに何が起きたのか?
AIスゴっ! 下手な漫画が秒で“プロ並み”に 「ネームだけで原稿完成」の時代に?
お絵かきAI、育児で活躍 “無限塗り絵”に4歳も夢中Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR