ITmedia NEWS > AI+ >
ITmedia AI+ AI活用のいまが分かる

AIで好きなポーズを出すために、モデルを10万枚撮影して手動でタグ付けしてみた清水亮の「世界を変えるAI」(3/4 ページ)

» 2023年02月27日 12時20分 公開
[清水亮ITmedia]

ポーズは意図を理解してタグ付けしないとダメ

 なぜダメなのかといえば、50億枚もの画像にタグを付けられる人間はいないので、どうしてもAIが自動的にタグを付けることになる。そのタグは、画像の周辺にあるキーワードだけなので、ポーズに関する情報がほぼないのだ。

 そこでタグ付けに関しては、筆者が自分で付けるのと別に、OpenVINOのポーズ推定を使ってAIにおおまかなポーズを発見させ、タグを付けさせるという方法を使って半自動化した。

 また、効率的にタグ付けを行うための専用ツールを作った。これはAIより早く作れるので作った方がよいと判断した。

筆者が開発したタグ付けツール

 やっていて気づいたのは、「タグ付け」というのが恐ろしくクリエイティブな作業であるということだ。

 もしも50億枚を、人間にタグ付けさせるとしたら、どう考えても分業しなければならない。筆者は一日あたり1000枚の画像にタグ付けができたので、それを基準にすると、1カ月で2万枚のタグ付けが限界ということになる。

 一人で1カ月に2万枚のタグ付けができるとして、50億枚の画像にタグ付けしようとすると、必要な工数は2万5000人月ということになる。

 この工数は、例えば1000人に手分けしても25カ月かかるのだが、それ以上に難しいのは、1000人に分散したとして、「同じクオリティ、同じポリシーでタグ付け」することができるかということだ。

 これは無理だろう。

 まず、写真というのは機械からすれば単なる画像データだが、撮影者の意図というものが必ず反映されている。その意図を本当に理解しているのは、その写真を撮影した本人だけである。

 「これは、何をしてるところなのか。登場人物の感情の動きはどうか」

 ということは、筆者の頭の中にしかない。演者とて、「自分が何をさせられているのか」分かっている人はほぼいない。

 次に、筆者はAI漫画を描く時に「どんなキーワードでこのポーズを呼び出したいか」を考えることになる。これもタグ付けにおいてはかなり重要だ。めちゃくちゃクリエイティブなのである。

 Pixivの画像を完コピしたDanbooruというサイトで学習された画像生成AIを避ける動きが、愛好家の間で広がっている。しかしDanbooruに付けられたタグのほうがPixivの画像に付いているタグよりも詳細かつ高品質なので、Danbooruから学習するほうがPixivから学習するよりも良いAIができてしまうのも頷(うなづ)ける。

 そして筆者はAI研究者としてこうも思うのだが、「ひょっとすると機械的にタグ付けされた50億枚のデータを、一人の人間が1つのポリシーでタグ付けした数万枚の画像でファインチューニング(微調整)したほうがより意図に沿ったAIが作れるのではないか」ということだ。

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ

あなたにおすすめの記事PR