自動運転車の開発・販売に取り組むTuring(千葉県柏市)は9月7日、日本語などの複数言語対応のマルチモーダルな学習ライブラリ「Heron」(ヘロン、アオサギの英名)を公開した。ソースコードのライセンスはApache License 2.0で、研究・商用利用が可能。併せて、最大700億パラメータの学習済みモデル群なども公開している。
大規模言語モデル(LLM)は、大量のテキストデータを学習に使うことで、幅広い知識や人間のような応答ができる。LLMへの入力(もしくは出力)は、一般的にテキストに限定されるため、画像などを直接利用できない課題がある。これを解決するため、画像や言語など複数の入力ソースを扱えることを「マルチモーダル」と呼ぶ。
Heronは、各モジュールを追加学習するための学習コードと日本語を含むデータセット、学習済みのモデル群で構成。画像認識モデルと大規模言語モデル(LLM)をつなぎ、画像を入力に使えるようになる。例えば、Heronで学習したAIモデルは、画像に何が写っているかを正確に把握しつつ、前の質問を含む文脈を理解しながら画像について回答することができる。
Heronの学習ライブラリでは、学習するLLMを自由に変換可能。「既存の言語モデルの性能を生かしつつ、今後開発・公開される新たなLLMに対しても容易に対応できる柔軟性がある」(同社)という。
公開中の学習済みのモデル群は「Llama 2-chat」(700億パラメータ)「ELYZA-Llama 2」(70億パラメータ)「Japanese StableLM」(70億パラメータ)などをベースにHeronで追加学習し、マルチモーダル化させたもの。これらのモデルは、デモページもWebで公開している。
他にも、注釈テキストやQ&Aからなる約15万枚の画像/テキストの英文データセットを独自に日本語翻訳した、日本語の画像/テキスト情報のデータセットも公開。「対話形式のマルチモーダル学習向けの大規模な日本語データセットの公開は、世界初」(同社)という。
自動運転車を開発するTuringがなぜマルチモーダルAIを開発したのか。同社は「完全自動運転の実現には人間と同等以上にこの世界を理解した自動運転AIが必要であると考えている」と説明。今回公開したマルチモーダルモデルの学習技術と知見を生かして、完全自動運転技術の開発を進める。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR