キャプション付き画像のデータ約1000万枚、AI Picassoが無償公開 「著作権に配慮、AIモデル開発に利用して」
イラスト生成AIサービス「AIいらすとや」などを手掛けるAI Picassoは7月31日、画像生成AIの開発用として、約1000万枚の画像からなるキャプション付きデータセットなど2点を無償公開した。著作権に配慮し、いずれのデータセットも「CC-0」(所有者が著作権を放棄し、実質パブリックドメイン化したもの)か、CC-0相当のライセンスを持つ画像で構成したという。
公開したのは、キャプション付きの画像約300万枚からなるデータセット「soa-full-florence2」(CC-0)と、キャプション付きの画像約1000万枚からなるデータセット「megalith-10m-florence2」(CC-0相当)の2つ。
soa-full-florence2は、米国の学術機関「スミソニアン協会」の公開情報を元に、AI開発者のmadebyollinさんが作成した、画像のURLへのリンク集「soa-full」を基に作ったデータセット。soa-fullはCC-0の絵画などの画像を多く集めており、soa-full-florence2も美術品の画像データを多く含む。
megalith-10m-florence2も、madebyollinさんが作成したCC-0相当の写真画像のリンク集「Megalith-10M」を利用し、作成したもの。Megalith-10Mは、著作権を侵害しないよう下処理を施しているという。そのためとAI Picassoは「機械学習に利用する分には著作権を侵害することはないと思われる」と説明している。
データセットはそれぞれHugging Face上で公開中。AI Picassoは「テキストからの画像生成の開発や視覚言語モデルの開発などにお使いください」としている。
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
Google、“動画版Nano Banana”こと「Gemini Omni」公開 会話で映像を生成・編集
-
2
日立、Anthropicと提携 グループ29万人に「Claude」などAI導入 社会インフラ分野にも展開へ
-
3
Appleが5年がかりで開発したセキュリティ対策を5日で突破 「Mythos」が見せつけた脆弱性攻撃の威力
-
4
GoogleのAIサブスク、最上位プランを値下げ 月額1万4500円の新プランも
-
5
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
6
「ポンコツ」と呼ばれたM365 Copilotの逆転劇、GPT-5が転換点 活用の秘訣は“脱・プロンプト職人”
-
7
人間 vs. 人型ロボ、より多く作業をこなせるのは? 生配信で対決した結果…… 米企業
-
8
「最新のAI創薬ラボ」なのに会議室みたい!? 製薬大手がラブコール送る“異色のAI企業”による新拠点とは
-
9
Google「Gemini」に個人向けAIエージェント 質問に答えるだけでなく「作業を代替」 まずは米国で
-
10
OpenAIの共同設立者アンドレイ・カーパシー、Anthropicにジョイン
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR