AIで好きなポーズを出すために、モデルを10万枚撮影して手動でタグ付けしてみた：清水亮の「世界を変えるAI」（3/4 ページ）

最初にAIで漫画を描くときのハードルは、「同じキャラクターが出せない」というものだったが、これはDreambooth（Memeplexではカスタムモデル学習）を使うことで解決できた。次のハードルは、「欲しいポーズが出せない」というものである。

[清水亮，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

前のページへ | 次のページへ

ポーズは意図を理解してタグ付けしないとダメ

　なぜダメなのかといえば、50億枚もの画像にタグを付けられる人間はいないので、どうしてもAIが自動的にタグを付けることになる。そのタグは、画像の周辺にあるキーワードだけなので、ポーズに関する情報がほぼないのだ。

　そこでタグ付けに関しては、筆者が自分で付けるのと別に、OpenVINOのポーズ推定を使ってAIにおおまかなポーズを発見させ、タグを付けさせるという方法を使って半自動化した。

　また、効率的にタグ付けを行うための専用ツールを作った。これはAIより早く作れるので作った方がよいと判断した。

筆者が開発したタグ付けツール

　やっていて気づいたのは、「タグ付け」というのが恐ろしくクリエイティブな作業であるということだ。

　もしも50億枚を、人間にタグ付けさせるとしたら、どう考えても分業しなければならない。筆者は一日あたり1000枚の画像にタグ付けができたので、それを基準にすると、1カ月で2万枚のタグ付けが限界ということになる。

　一人で1カ月に2万枚のタグ付けができるとして、50億枚の画像にタグ付けしようとすると、必要な工数は2万5000人月ということになる。

　この工数は、例えば1000人に手分けしても25カ月かかるのだが、それ以上に難しいのは、1000人に分散したとして、「同じクオリティ、同じポリシーでタグ付け」することができるかということだ。

　これは無理だろう。

　まず、写真というのは機械からすれば単なる画像データだが、撮影者の意図というものが必ず反映されている。その意図を本当に理解しているのは、その写真を撮影した本人だけである。

　「これは、何をしてるところなのか。登場人物の感情の動きはどうか」

　ということは、筆者の頭の中にしかない。演者とて、「自分が何をさせられているのか」分かっている人はほぼいない。

　次に、筆者はAI漫画を描く時に「どんなキーワードでこのポーズを呼び出したいか」を考えることになる。これもタグ付けにおいてはかなり重要だ。めちゃくちゃクリエイティブなのである。

　Pixivの画像を完コピしたDanbooruというサイトで学習された画像生成AIを避ける動きが、愛好家の間で広がっている。しかしDanbooruに付けられたタグのほうがPixivの画像に付いているタグよりも詳細かつ高品質なので、Danbooruから学習するほうがPixivから学習するよりも良いAIができてしまうのも頷（うなづ）ける。

　そして筆者はAI研究者としてこうも思うのだが、「ひょっとすると機械的にタグ付けされた50億枚のデータを、一人の人間が1つのポリシーでタグ付けした数万枚の画像でファインチューニング（微調整）したほうがより意図に沿ったAIが作れるのではないか」ということだ。

AIには言葉でなかなか伝えられないアングルとポーズ、表情もポーズ集をもとにすれば簡単に

前のページへ | 次のページへ

なぜ人々は、ChatGPTという“トリック"に振り回されるのか？　Google「Bard」参戦、チャットAI戦争の行方
OpenAIが2022年に発表した対話型AI「ChatGPT」の衝撃は、米国ビッグテック最強の一角であるGoogleを動揺させた。Googleは急ぎ「Bard」と名付けたチャットボットを投入し、巻き返しを図る。
日本を画像生成AIで再現する　「自分の見た景色」を学習したAIは強力な思い出再生装置に
AIで漫画を書こうとするとひとつ不便なことがある。StableDiffusionの元になっている学習データは「全世界」の画像を使っているので、日本人がイメージするような「郵便局」とはまったく異なるイメージになってしまう。そこで街のあちこちの景色を写真に撮った。これをAIに学習させて、独自の日本的な画像生成AIを作ろうというのだ。
AIでどこまでできる？　絵心のないプログラマーが「ChatGPT」と「作画AI」でマンガを描いてみた
クリスタにAI作画機能搭載が見送られたと聞いて、なるほどなあと思いつつ、では絵が全く描けない筆者が、AIを使って漫画を書くことはできるのか、実際にやってみることにした。
AIは日本のテレビから何を学ぶか？
前回、身の回りにある「日本的な風景」を学習させてみた。その結果、郵便局がより日本的なものになったり、自動販売機や駐車場がよりそれっぽいものになることが確認できた。今回はそれを一歩進めて、AIに日本のテレビ番組を学習させてみることにする。
まさに「世界変革」──この2カ月で画像生成AIに何が起きたのか？
2022年8月22日。日本時間にして午前4時ごろ、「世界変革」はついに実行された。「どんな絵も描ける」AIである「Stable Diffusion」がついにオープンソースとして公開されたのだ。そこからの2カ月を振り返る。

AIで好きなポーズを出すために、モデルを10万枚撮影して手動でタグ付けしてみた：清水亮の「世界を変えるAI」（3/4 ページ）

ポーズは意図を理解してタグ付けしないとダメ

関連記事