なぜダメなのかといえば、50億枚もの画像にタグを付けられる人間はいないので、どうしてもAIが自動的にタグを付けることになる。そのタグは、画像の周辺にあるキーワードだけなので、ポーズに関する情報がほぼないのだ。
そこでタグ付けに関しては、筆者が自分で付けるのと別に、OpenVINOのポーズ推定を使ってAIにおおまかなポーズを発見させ、タグを付けさせるという方法を使って半自動化した。
また、効率的にタグ付けを行うための専用ツールを作った。これはAIより早く作れるので作った方がよいと判断した。
やっていて気づいたのは、「タグ付け」というのが恐ろしくクリエイティブな作業であるということだ。
もしも50億枚を、人間にタグ付けさせるとしたら、どう考えても分業しなければならない。筆者は一日あたり1000枚の画像にタグ付けができたので、それを基準にすると、1カ月で2万枚のタグ付けが限界ということになる。
一人で1カ月に2万枚のタグ付けができるとして、50億枚の画像にタグ付けしようとすると、必要な工数は2万5000人月ということになる。
この工数は、例えば1000人に手分けしても25カ月かかるのだが、それ以上に難しいのは、1000人に分散したとして、「同じクオリティ、同じポリシーでタグ付け」することができるかということだ。
これは無理だろう。
まず、写真というのは機械からすれば単なる画像データだが、撮影者の意図というものが必ず反映されている。その意図を本当に理解しているのは、その写真を撮影した本人だけである。
「これは、何をしてるところなのか。登場人物の感情の動きはどうか」
ということは、筆者の頭の中にしかない。演者とて、「自分が何をさせられているのか」分かっている人はほぼいない。
次に、筆者はAI漫画を描く時に「どんなキーワードでこのポーズを呼び出したいか」を考えることになる。これもタグ付けにおいてはかなり重要だ。めちゃくちゃクリエイティブなのである。
Pixivの画像を完コピしたDanbooruというサイトで学習された画像生成AIを避ける動きが、愛好家の間で広がっている。しかしDanbooruに付けられたタグのほうがPixivの画像に付いているタグよりも詳細かつ高品質なので、Danbooruから学習するほうがPixivから学習するよりも良いAIができてしまうのも頷(うなづ)ける。
そして筆者はAI研究者としてこうも思うのだが、「ひょっとすると機械的にタグ付けされた50億枚のデータを、一人の人間が1つのポリシーでタグ付けした数万枚の画像でファインチューニング(微調整)したほうがより意図に沿ったAIが作れるのではないか」ということだ。
なぜ人々は、ChatGPTという“トリック"に振り回されるのか? Google「Bard」参戦、チャットAI戦争の行方
日本を画像生成AIで再現する 「自分の見た景色」を学習したAIは強力な思い出再生装置に
AIでどこまでできる? 絵心のないプログラマーが「ChatGPT」と「作画AI」でマンガを描いてみた
AIは日本のテレビから何を学ぶか?
まさに「世界変革」──この2カ月で画像生成AIに何が起きたのか?Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR