ニュース
ZOZO、10年分のファッションデータをオープンソース化 流行に左右されないAI研究に期待
ZOZOテクノロジーズが10年分のファッションのデータセットをオープンソース化。流行が変化してもAIの認識精度を高く保つ研究への活用を見込む。
ZOZOテクノロジーズは9月2日、服のコーディネート約255万件とアイテム約200万件などを含むデータセット「Shift15M」をオープンソースとしてGitHubで公開したと発表した。服の流行が変化してもAIの認識精度を高く保つための研究への活用を見込む。
公開したデータは、服のコーディネートを試せるアプリ「IQON」で2010〜2020年に投稿されたコーディネート情報や、投稿日時、「いいね」の数、ジャンルやカテゴリー情報、機械学習用に付与したラベルなど。
同社によると、ファッション関連のデータは流行の変化や新製品の登場によってデータの分布が変わる「分布シフト」という現象が起き、AIによる認識精度が低下する。分布シフトはファッション以外の分野でも起きるが、これまでデータセットの不足で研究が進まなかったという。
Shift15Mと合わせて、10年間のコーディネートの傾向を基に分布シフトの再現実験などができるソースコードのセットも公開した。分布シフトが発生する条件下で「いいね」数や価格などの推移を分析でき、分布シフトの解決策を探るのに役立つという。
関連記事
- ZOZOTOWNのファッション推薦データ、オープンソースで公開 アルゴリズム開発基盤も
ZOZOTOWN上での実際の推薦アルゴリズムから取得された2800万件超のファッション推薦データと、新しい施策やアルゴリズムを実サービス環境に導入した際の性能を予測し、その正確さを検証できる「Open Bandit Pipeline」をZOZOがオープンソースで公開。 - 「マスクを着けた日本人」の画像1000枚セット、機械学習用にピクスタが発売
ピクスタが、マスクを着けた日本人の画像素材を1000枚集めたデータセットを発売。機械学習での利用を見込むという。比較用に、マスクを着けていない日本人の画像セットも販売する。 - rinna、日本語に特化した「GPT-2」の言語モデルをオープンソース化 学習済みモデルも公開
rinnaが、日本語に特化した「GPT-2」の言語モデルをオープンソース化。開発に向けた実験のために構築したもので、「GitHub」や「HuggingFace」で公開している。 - AIチャットbotを200件のデータで構築 従来の60分の1に 「りんな」開発元が新技術
rinnaが、キャラクター性を持ったAIチャットbotを開発するサービス「Rinna Character Platform」に新しい会話エンジンを採用。必要な学習データを従来の1万2000件から約200件に削減した。 - 「どんな文章も3行に要約するAI」デモサイト、東大松尾研発ベンチャーが公開 「正確性は人間に匹敵」
文章の「3行要約」を生成するAIのデモサイトを、東大・松尾豊研究室発のAIベンチャーが公開。会話文の要約も得意だ。要約の正確性は「人間に匹敵する」という。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.