検索
ニュース

キャプション付き画像のデータ約1000万枚、AI Picassoが無償公開 「著作権に配慮、AIモデル開発に利用して」

イラスト生成AIサービス「AIいらすとや」などを手掛けるAI Picassoは、著作権に配慮したという画像生成AIの開発用データ約1000万個を無償公開した。

Share
Tweet
LINE
Hatena

 イラスト生成AIサービス「AIいらすとや」などを手掛けるAI Picassoは7月31日、画像生成AIの開発用として、約1000万枚の画像からなるキャプション付きデータセットなど2点を無償公開した。著作権に配慮し、いずれのデータセットも「CC-0」(所有者が著作権を放棄し、実質パブリックドメイン化したもの)か、CC-0相当のライセンスを持つ画像で構成したという。


キャプション付き画像のデータ約1000万枚、AI Picassoが無償公開

 公開したのは、キャプション付きの画像約300万枚からなるデータセット「soa-full-florence2」(CC-0)と、キャプション付きの画像約1000万枚からなるデータセット「megalith-10m-florence2」(CC-0相当)の2つ。

 soa-full-florence2は、米国の学術機関「スミソニアン協会」の公開情報を元に、AI開発者のmadebyollinさんが作成した、画像のURLへのリンク集「soa-full」を基に作ったデータセット。soa-fullはCC-0の絵画などの画像を多く集めており、soa-full-florence2も美術品の画像データを多く含む。


soa-fullに収録された画像の例

 megalith-10m-florence2も、madebyollinさんが作成したCC-0相当の写真画像のリンク集「Megalith-10M」を利用し、作成したもの。Megalith-10Mは、著作権を侵害しないよう下処理を施しているという。そのためとAI Picassoは「機械学習に利用する分には著作権を侵害することはないと思われる」と説明している。


Megalith-10Mに収録された写真の例

 データセットはそれぞれHugging Face上で公開中。AI Picassoは「テキストからの画像生成の開発や視覚言語モデルの開発などにお使いください」としている。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る