StableDiffusionはネット上にある50億枚の画像から学習されたとされている。
通常、AIが学習する画像は、人間が一枚一枚、「これはこういう場面ですね」とタグを付けていく。この「タグ」を付ける作業に莫大な手間がかかる。
しかし、50億枚ともなると、人間が手で教師データを作るのは無理である。そこで、オープンソースコミュニティのLAIONプロジェクトは、AIに自動的にタグを付けさせることにした。
これによる大きな発見の1つは、「AIが自動的にタグ付けしたようないい加減なものでも、ちゃんと画像が生成される」ということである。まさにコロンブスの卵であり、誰かがやるまでは誰もできるとは思ってないが、いざできてしまうと誰でも真似できてしまうことの典型だといえる。
しかし、ネット上の50億枚というのは非常に膨大であるだけでなく、非常にばらつきが大きい。特に我々日本人が普段目にするようなものと、欧米人が目にするようなもの、アジアの各国に住む人々が目にするものは何もかも違う。これを「バイアス」という。
前回のこの連載では、手始めに身の回りにある「日本的な風景」を学習させてみた。その結果、郵便局がより日本的なものになったり、自動販売機や駐車場がよりそれっぽいものになることが確認できた。
今回はそれを一歩進めて、AIに日本のテレビ番組を学習させてみることにする。
我が国では改正著作権法により、AIが学習する場合において、著作権法上の特例が適用される。学習に使うことは法的に問題ないが、学習に使ったデータをそのまま明かすと肖像権やパブリシティ権の侵害になる可能性があるので、残念ながらここでは「どんな番組を学習させたか」は紹介できない。
また、ただ学習させてもつまらないので、今回は姿勢推定AIを使って、「右手を上げている」「アゴに手を当てている」などのアノテーションも同時に付けることにした。こうすると、作画系AIが苦手としているポーズの指定に強いAIを作ることができるはずである。
筆者はとりあえず30時間分のテレビ番組をAIに見せて、70万セットのアノテーションを得た。これをStableDiffusion2.1ベースから、丸2日ほど学習させてみる。
筆者の運営する個人サイトを今月からゼルペム社(Zelpm Inc.)という組織に運営移管した。一人だけだとどうしてもできることが限られるので、非常に小さい組織を作ったのだ。筆者が設立に関わった会社としては、ちょうど十社目となる。
この会社の名前にちなんで、筆者が開発した新しいAIをZelpmDiffusionと呼ぶことにする。こうすることで、AIは日本風の空気感を理解するだろうか。
こうして学習したAIに試しに「女性の写真」を出力させてみた。まず、StableDiffusion2.1だとこうなる。
これを見るだけでも、単体のStableDiffusionがいかに欧米のバイアスに引っ張られているかわかるだろう。この手のものの学習には、ネットに溢れているものから取るしかないので、どうしても必然的にこうなってしまう。
特に最近は、学習に利用された素材集やストックフォトの会社が集団訴訟に踏み切るなど、きなくさくなってきた。
日本の場合、世界に先駆けて著作権法でAIでの学習利用を明確に特例扱いしているが、諸外国はそうではない。判決によっては、StableDiffusionのバーションアップは停滞する可能性もある。
独自の学習データを集め、学習させておく意義はそこにあるのだ。
さて、50億枚に比べるとわずか70万枚の画像はほんの少しでしかないが、それでも、もともとあるStableDiffusionのバイアスを突破することはできるだろうか。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR