CxO Insights

松尾豊が語る「和製AIが世界で勝つ」方法 カギを握る企業特化型LLM(1/2 ページ)

» 2023年11月13日 06時00分 公開
[河嶌太郎ITmedia]

 日々進化を続ける、ChatGPTに代表される生成AI。米国は数兆円規模で開発予算を投入していて、他国の追随を許さない状況が続いている。日本国内でもNECやソフトバンク、NTTグループなどの多くの企業が生成AIの開発に参入した。

 民間企業の参入が相次ぐ中、大学で生成AIの研究と研究者の育成を最前線で進めているのが、東京大学大学院工学系研究科の松尾豊研究室だ。人工知能の研究・開発を長年続けていて、8月には岸田文雄総理も研究室も訪れた。松尾豊教授は、国の「AI戦略会議」の座長も務める。

 同じく松尾教授が理事長を務めるのが、日本ディープラーニング協会(JDLA)だ。JDLAは、生成AI利用の企業向けガイドラインを策定していたり、G検定やE資格といったAIに関する資格試験を実施したりしている。

 前編【松尾豊東大教授が明かす 日本企業が「ChatGPTでDX」すべき理由】では生成AIの現状と活用可能性について、中編【松尾豊東大教授が語る「生成AIと著作権の現状」 日米欧の違いは?】では、生成AIと著作権におけるルール作りの現状について「CDLE All Hands 2023」での講演の模様を紹介した。

 後編では「日本企業の生成AI開発には勝機があるのか」をお届けする。

日本ディープラーニング協会の松尾豊理事長

和製ChatGPTの勝ち筋は「領域特化型」にあり

 米国を中心とした生成AIの開発競争の中で、松尾教授は「和製ChatGPT」の必要性を訴える。

 「生成AIの技術自体は論文やオープンソースによって、ある程度公開されているため、新規参入はしやすい。大規模な生成AIに関わる技術者をいかにして増やし、ノウハウを蓄積していくか。そして、いかにして民間での開発を推進していくかが大事だと思います」

 生成AIでは、大量のデータを「事前学習」させているのが特徴だ。この学習量は「パラメータ数」とも呼ばれる。GPT-3は1750億のパラメータ数で、書籍でいうと500万冊の分量に匹敵する。東大図書館の蔵書量が130万冊、国会図書館が4700万冊だ。しかし最新のGPT-4は約1.3億冊といわれており、これに匹敵するものを開発するには、国会図書館2.5個分ぐらいのデータ量が必要になる。

 「日本語でしっかりとデータ整備ができる環境作りも必要です。国会図書館をはじめ、いろいろなところから学習に使えるデータを提供していただく必要があります。特に海外にはない古典や歴史的な文書が非常に大切だと思っています。日本人の文化や精神性の部分を、古い文書も含めて使えるようにすることが大事だからです」

 生成AIの今後はどうなるのか。松尾教授は「バーティカル(領域特化)の大規模言語モデル(LLM)が成立するのかどうか」に着目しているという。実際に医療療育に特化したLLMの開発は続いてきていて、実際にGPT-3と、スタンフォード大学が開発した医療特化型の「PubMedGPT」を対決させたところ、PubMedGPTが勝利したという。

 ところが相手がGPT-4になると、GPT-4が勝利する。そして最近、またGoogleの医療特化型「Med-PaLM2」が登場し、これがGPT-4に勝ったという。このような“いたちごっこ”の状況を、松尾教授はこう分析する。

 「特化させると一瞬、汎用モデルに勝つんです。ところが、さらに大きい汎用モデルが出てくると、また負けるのです。そういう中で、どっちが勝つのかどうかはまだ分かりません。恐らくOpenAIは、唯一の汎用モデルが、いろいろな領域で適用できると考えていると思います。これに対しGoogleは、別の立場を取っていると考えられます。バーティカルなLLMが成立するのかどうかは、日本の競争戦略でも非常に重要な話です」

 もし領域特化のLLMに勝機があるとしたら、日本企業にもチャンスは生まれる。今は日本でもLLMが生まれていて、そのパラメータ数は100億パラメータのものが中心だ。GPT-3のパラメータ数は1750億、GPT-4になると2兆にのぼるとみられている。

 「このパラメータ数をより大きくしていくか、バーティカルにしていくか。これが日本企業にとっての攻めどころだと思っています。本格的なバーティカルLLMは、国内ではまだ登場していません」(松尾教授)

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.