キャプション付き画像のデータ約1000万枚、AI Picassoが無償公開 「著作権に配慮、AIモデル開発に利用して」
イラスト生成AIサービス「AIいらすとや」などを手掛けるAI Picassoは、著作権に配慮したという画像生成AIの開発用データ約1000万個を無償公開した。
イラスト生成AIサービス「AIいらすとや」などを手掛けるAI Picassoは7月31日、画像生成AIの開発用として、約1000万枚の画像からなるキャプション付きデータセットなど2点を無償公開した。著作権に配慮し、いずれのデータセットも「CC-0」(所有者が著作権を放棄し、実質パブリックドメイン化したもの)か、CC-0相当のライセンスを持つ画像で構成したという。
公開したのは、キャプション付きの画像約300万枚からなるデータセット「soa-full-florence2」(CC-0)と、キャプション付きの画像約1000万枚からなるデータセット「megalith-10m-florence2」(CC-0相当)の2つ。
soa-full-florence2は、米国の学術機関「スミソニアン協会」の公開情報を元に、AI開発者のmadebyollinさんが作成した、画像のURLへのリンク集「soa-full」を基に作ったデータセット。soa-fullはCC-0の絵画などの画像を多く集めており、soa-full-florence2も美術品の画像データを多く含む。
megalith-10m-florence2も、madebyollinさんが作成したCC-0相当の写真画像のリンク集「Megalith-10M」を利用し、作成したもの。Megalith-10Mは、著作権を侵害しないよう下処理を施しているという。そのためとAI Picassoは「機械学習に利用する分には著作権を侵害することはないと思われる」と説明している。
データセットはそれぞれHugging Face上で公開中。AI Picassoは「テキストからの画像生成の開発や視覚言語モデルの開発などにお使いください」としている。
関連記事
- 「いらすとや」風画像を無限に生成 「AIいらすとや」商用利用可に 有料サービス化
AI Picassoが、「いらすとや」風のイラストを生成できる「AIいらすとや」の正式サービスを始めた。同社の有料サブスクリプション(月額1480円)に登録すれば、無制限に画像を生成し、全てクレジットなしで商用利用できる。 - 商用利用OKの画像生成AI「Emi」公開 クリエイターと対話して開発、無断転載画像不使用
アニメ・マンガ風のイラストを生成でき、商用利用OKな画像生成AI「Emi」が公開された。 - AI開発に黄色信号? 市場急成長で“学習用データ枯渇”の懸念 解決策といわれる「合成データ」とは何か
ある調査によれば、2024年のAIの市場規模は全世界で1840億ドルに達し、30年までに8267億ドルとなる見込みだ。一方、生成AIの普及・進化には“学習用データの枯渇”リスクがあるという。そこで解決策として期待されているのが「合成データ」である。 - 生成AIが“AI生成コンテンツ”を学習し続けるとどうなる?→「モデル崩壊」が起こる 英国チームが発表
英オックスフォード大学や英ケンブリッジ大学などに所属する研究者らは、AIモデルが自己生成したデータで繰り返し学習すると、モデルの性能が低下していく「モデル崩壊」という現象を発見した研究報告を発表した。 - サイバーエージェント、日本語に強い“視覚言語モデル”公開 パラメータ75億、商用利用もOK
サイバーエージェントは、75億パラメータの日本語大規模視覚言語モデル(Vision Language Model、VLM)を一般公開した。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.