生成AI開発に革新か　“自律進化”で目的のAIを自動生成　超低コスト＆短期間で高性能モデルも開発済　トップ研究者集団「Sakana AI」（1/2 ページ）

公開 2024年03月21日 10時03分

更新 2024年03月21日 12時05分

著者

井上輝一

[ITmedia]

印刷する

　生成AIのトップ研究者らが東京で創業したAIベンチャー「Sakana AI」が、生成AI開発の新たな手法を開発したと3月21日に発表した。従来は人間が手動で設計し、多くの計算資源を使っていたが、同社の手法では設計を機械が自動で行い、“ほぼ無視できるレベル”の計算資源で開発が可能になるという。この手法で開発した日本語基盤モデルをGitHubで公開した。

Sakana AIが提案する「進化的モデルマージ」のイメージ（以下、画像はSakana AI提供）

この手法で開発したモデルの性能を画像で見る

　同社が提案したのは「進化的モデルマージ」という手法。公開されているさまざまな基盤モデル（生成AIを含む、大規模なデータセットによる事前学習で各種タスクに対応できるモデルのこと）を組み合わせて新たなモデルを作る「マージ」に、進化的アルゴリズムを適用したものだ。

　マージ自体は現在の基盤モデル開発で使われている手法で、モデルの“神経回路”（アーキテクチャ）の中に別のモデルの神経回路の一部を組み入れたり、入れ替えたり、神経同士のつながりやすさ（重み）を別のモデルを参照して混ぜたりすることで、モデルの性能を向上させられるというもの。

　ただ、この組み合わせ方は無数にあり、従来は研究者の直感や経験則に基づいて行われてきたという。進化的モデルマージでは、マージの組み合わせ方法に進化的アルゴリズムを使い、モデル同士を何世代も掛け合わせることで、人間の経験に頼らず高性能なマージモデルを作ることに成功した。

　しかも、AIの学習（訓練）フェーズで一般的に行われる「誤差逆伝播」は膨大な計算資源を消費するが、この方法では誤差逆伝播を全く必要とせず、ほぼ無視可能な計算資源でモデルを生成できるという。

マージにより3つのモデルから新たなモデルを生成するイメージ。従来は人間の経験に頼っていたが、この手法ではアルゴリズムが良い組み合わせを自律的に発見する

7B同士のマージで70Bを上回る性能　たった1日の開発で

　同社は進化的モデルマージの実証として、日本語大規模基盤モデル「EvoLLM-JP」、日本語画像言語モデル「EvoVLM-JP」、日本語画像生成モデル「EvoSDXL-JP」という3種類のモデルを作成。作成にかかった時間はいずれも1日以内という。

　例えばEvoLLM-JPでは「日本語で数学の問題を解けるLLM」を目指し、7B（70億）パラメータの日本語モデルと、同じく7Bの数学特化な英語モデルを自動マージ。その結果、日本語での数学性能を測るベンチマークテストで既存の70Bのモデルすら上回ったという。

4～6が進化的モデルマージによって生成したモデル。4は1～3の重みをマージ。5は1と3のアーキテクチャをマージ。6は4の重みマージモデルと1のアーキテクチャをマージ。いずれも70Bの既存LLMを上回る、日本語での数学性能を見せた

　同社はこの結果について「日本にルーツを持つAIラボとして、まずは日本向けの最高クラスの基盤AIモデルを作成するためにこれらの技術を活用したいと考えた。しかし、今回の成果はこの技術の可能性を示したに過ぎない。このアプローチにはまだまだ多くの探求の余地があり、今回の結果は今後の長期的な研究開発の第一歩となるものと考えている」とコメントしている。

　Sakana AIは、元Googleの研究者であるライオン・ジョーンズさんとデビッド・ハーさん、元メルカリ執行役員の伊藤錬さんが、東京で2023年8月に立ち上げたAIベンチャー。ジョーンズさんは現在の生成AIの中核となっているアーキテクチャ「Transformer」を提案した論文「Attention Is All You Need」の著者の一人。ハーさんはGoogle Brainの東京チーム設立時のトップやStability AIの研究トップなどを歴任した。24年1月にはシリコンバレーのベンチャーキャピタルやNTTグループ、KDDI、ソニーグループなどから45億円の資金を調達している。

この手法で開発したモデルの性能を画像で見る

次ページへ日本語画像言語モデル「EvoVLM-JP」の利用例や日本語画像生成モデル「EvoSDXL-JP」生成結果を見る

印刷する

この記事の著者

井上輝一

2016年3月からITmediaにジョイン。ITmedia Mobile、PC USER、LifeStyle、ヘルスケアで編集・執筆を兼務。2017年4月からITmedia NEWSでの兼務も開始。2019年4月にNEWS専属となる。スマートフォンやPCといったガジェット系の他、理系（神経科学）のバックグラウンドを生かして科学系のネタや、量子コンピュータ、ブロックチェーン、AIなど多岐に渡って取材している。