自動運転車の開発・販売に取り組むTuring（千葉県柏市）は9月7日、日本語などの複数言語対応のマルチモーダルな学習ライブラリ「Heron」（ヘロン、アオサギの英名）を公開した。ソースコードのライセンスはApache License 2.0で、研究・商用利用が可能。併せて、最大700億パラメータの学習済みモデル群なども公開している。

マルチモーダルな学習ライブラリ「Heron」

　大規模言語モデル（LLM）は、大量のテキストデータを学習に使うことで、幅広い知識や人間のような応答ができる。LLMへの入力（もしくは出力）は、一般的にテキストに限定されるため、画像などを直接利用できない課題がある。これを解決するため、画像や言語など複数の入力ソースを扱えることを「マルチモーダル」と呼ぶ。

マルチモーダルモデルの構造と応答例

　Heronは、各モジュールを追加学習するための学習コードと日本語を含むデータセット、学習済みのモデル群で構成。画像認識モデルと大規模言語モデル（LLM）をつなぎ、画像を入力に使えるようになる。例えば、Heronで学習したAIモデルは、画像に何が写っているかを正確に把握しつつ、前の質問を含む文脈を理解しながら画像について回答することができる。

公開した日本語マルチモーダルモデルの応答例

　Heronの学習ライブラリでは、学習するLLMを自由に変換可能。「既存の言語モデルの性能を生かしつつ、今後開発・公開される新たなLLMに対しても容易に対応できる柔軟性がある」（同社）という。

　公開中の学習済みのモデル群は「Llama 2-chat」（700億パラメータ）「ELYZA-Llama 2」（70億パラメータ）「Japanese StableLM」（70億パラメータ）などをベースにHeronで追加学習し、マルチモーダル化させたもの。これらのモデルは、デモページもWebで公開している。

　他にも、注釈テキストやQ＆Aからなる約15万枚の画像／テキストの英文データセットを独自に日本語翻訳した、日本語の画像／テキスト情報のデータセットも公開。「対話形式のマルチモーダル学習向けの大規模な日本語データセットの公開は、世界初」（同社）という。

　自動運転車を開発するTuringがなぜマルチモーダルAIを開発したのか。同社は「完全自動運転の実現には人間と同等以上にこの世界を理解した自動運転AIが必要であると考えている」と説明。今回公開したマルチモーダルモデルの学習技術と知見を生かして、完全自動運転技術の開発を進める。

Turingが開発する自動運転車

画像を説明できるAI「Japanese InstructBLIP Alpha」　Stability AI Japanが公開
英Stability AIの日本法人であるStability AI Japanは、画像を入力すると、その説明文を生成できるAIモデル「Japanese InstructBLIP Alpha」を公開した。
Meta、マルチモーダルAI「ImageBind」をオープンソース化
Metaは、マルチモーダルなAIモデル「ImageBind」をオープンソースで公開した。テキスト、画像および動画、音声、深度（3D）、熱（赤外線）、慣性測定単位（IMU）という6種類のモダリティをサポートする。「メタバース」生成にも使えそうだ。
日本AI界の“スター”が作った自動運転車に乗ってみた　創業から1年半で市販化　彼らの「無謀な計画」とは
日本発の自動運転スタートアップが自社開発の運転支援システムを載せたクルマを試乗させてくれるというので、千葉県は柏の葉キャンパス駅に降り立った。
自動運転には「LLM」が必須？　国内AIベンチャーが“目や耳”を持った大規模言語モデルを開発へ
自動運転車の開発・販売に取り組むTuringは3月20日、大規模言語モデル（LLM）を独自開発すると発表した。同社はLLMを開発する理由として「完全自動運転を実現するため」としている。
自動運転で北海道一周、日本のベンチャーが成功　1300km超を「レベル4」相当で
自動運転ベンチャーのTURINGが、独自の自動運転システムを搭載した乗用車で北海道を一周することに成功。