博報堂テクノロジーズは、日本語に特化した視覚言語事前学習モデル(VLP)「Japanese CLIP ViT-H/14」を開発し、Hugging Face上で無償公開した(非商用限定)。「桜の花が満開の公園」など具体的なシーンを日本語で検索した際、関連度の高い画像を正確に見つけ出すといったことが可能になるという。
視覚言語事前学習モデル(Vision-Language Pre-training/VLP)は、画像と対応したテキスト(キャプション)を理解できるようAIを学習させたモデル。多くの視覚言語事前学習技術は英語を中心に開発されており、日本語データへの対応が不十分だった。
同社は画像エンコーダの改良と訓練データ量の拡大、言語エンコーダ能力の強化を通じ、日本語に特化したモデルを開発。無償公開することで、「研究コミュニティやAI技術の開発者により高度な日本語の視覚言語理解の基盤を提供する」としている。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR