キャプション付き画像のデータ約1000万枚、AI Picassoが無償公開 「著作権に配慮、AIモデル開発に利用して」
イラスト生成AIサービス「AIいらすとや」などを手掛けるAI Picassoは7月31日、画像生成AIの開発用として、約1000万枚の画像からなるキャプション付きデータセットなど2点を無償公開した。著作権に配慮し、いずれのデータセットも「CC-0」(所有者が著作権を放棄し、実質パブリックドメイン化したもの)か、CC-0相当のライセンスを持つ画像で構成したという。
公開したのは、キャプション付きの画像約300万枚からなるデータセット「soa-full-florence2」(CC-0)と、キャプション付きの画像約1000万枚からなるデータセット「megalith-10m-florence2」(CC-0相当)の2つ。
soa-full-florence2は、米国の学術機関「スミソニアン協会」の公開情報を元に、AI開発者のmadebyollinさんが作成した、画像のURLへのリンク集「soa-full」を基に作ったデータセット。soa-fullはCC-0の絵画などの画像を多く集めており、soa-full-florence2も美術品の画像データを多く含む。
megalith-10m-florence2も、madebyollinさんが作成したCC-0相当の写真画像のリンク集「Megalith-10M」を利用し、作成したもの。Megalith-10Mは、著作権を侵害しないよう下処理を施しているという。そのためとAI Picassoは「機械学習に利用する分には著作権を侵害することはないと思われる」と説明している。
データセットはそれぞれHugging Face上で公開中。AI Picassoは「テキストからの画像生成の開発や視覚言語モデルの開発などにお使いください」としている。
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
農水省の“クソダサ”ポスター話題 「AIよりよっぽど良い」の声も 担当者に狙いを聞いた
-
2
AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか? 11のLLMで“ミルグラム実験” 抵抗できたのは……
-
3
「Claude Fable 5」をサブスクの標準機能に――AnthropicのエンジニアがXに投稿 7月8日以降の「早期復活目指す」
-
4
3万円で「Yahoo!ニュース」にPR掲載 プレスリリースをAIで「ニュース風記事」に
-
5
ソフトウェアエンジニアの仕事は「ループを書くこと」になる 内側ループと外側ループ(ハーネス)入門
-
6
AIで“ゲームキャラの出産二次創作”を何千回と生成する人も……ChatGPTの会話57万件から見えたヘビーな利用実態
-
7
ひろゆき氏「SIer衰退予測」、AI代替の「逆転現象」の理由 2026年に生き残るエンジニア“4つの役割”
-
8
人型ロボットが工場で稼働する様子を6日間生配信、作業成功率99.99%をうたう 中国メーカー
-
9
日本の「完璧主義」から脱却し中国ヒューマノイドにどう立ち向かうか
-
10
え、21日で37テラも? 高性能SSDを食いつぶす「あのAIツール」にご用心:886th Lap
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR