動き出した「日の丸LLM」プロジェクトの"中身"――日本学術会議の講演から探る:Weekly Memo(1/2 ページ)
生成AIの基盤技術であるLLMの開発競争が注目される中で、「日本語力」を前面に押し出す「日の丸LLM研究開発プロジェクト」が本格的に始動した。その中身と可能性は――。
「ChatGPT」に代表される生成AIの基盤技術である大規模言語モデル(以下、LLM)の開発競争に注目が集まっている。現状では、ChatGPTを開発したOpenAIやGoogleなどの海外企業が先行しているが、日本でも日本語処理を重視したLLMを開発する動きが本格化してきた。
日本学術会議が日本情報学研究所(以下、NII)との共催で2023年9月14日に開催した公開シンポジウムで、その代表的な動きが明らかになった。今回はその内容を取り上げ、「日の丸LLM」の可能性を探る。
「日の丸LLM」研究開発プロジェクトは何を目指すのか
「生成AIの課題と今後」と題して開かれたそのシンポジウムから、NII所長の黒橋禎夫氏(日本学術会議連携会員、京都大学特定教授)による「大規模言語モデルを研究する基盤:LLM-jp」と題した講演内容のエッセンスを以下に紹介する。
まず、LLMの歴史について、黒橋氏は次のように説明した(図1)。
「LLMは自然言語処理および機械翻訳の中から生まれてきた技術で、2014年に『Attention』というものが出てきた。それを精緻化したのが『Transformer』で、その入力側(図1左下の図の左列)から『BERT』、出力側(同図の右列)からGPTが開発された。GPTは2018年に世に出て以来、パラメータ数が増強され、GPT-3では175B(1750億)パラメータの規模になった。最新のGPT-4の性能は公表されていないが、おそらくGPT-3.5レベルのものが相当数、並列で動いているものと想定される。GPT-4は米国の専門レベルのさまざまな試験に合格するレベルになっている」
世界と日本のLLMの状況を見ると(図2)、横軸が開発時期、縦軸がB(ビリオン)単位のパラメータ数を示している。黒橋氏によると、「赤色とオレンジ色のものが日本語モデルで、中でもオレンジ色はパラメータなどの仕様がオープンになっているものと認識している」とのことだ。
一方、黒橋氏はLLMに関する懸念として、以下のような点を挙げた。
- 研究開発が一部の組織の寡占状態であることは、健全とはいえない。OpenAIは、もはやオープンではない
- 強くて大きなモデルの学習向けのコーパス(自然言語の文書を大量に集めたデータベース)は公開されておらず、巨大パラメータのモデルの振る舞いを含めて、全体がブラックボックスになっている。従って、その賢さや多言語性について、何が起きているのか誰も分からない
- 現在のモデルにはHallucination(もっともらしいウソ)やバイアスなどの課題が山積している
- 日本語コーパスはGPT-3において0.11%といわれており、日本語の理解や生成能力は英語に比べて劣る
- 国内にサーバを置き、セキュリティ認証「ISMAP」を取得するサービスも検討されているが、経済安全保障的な懸念は残る
こうした懸念を踏まえ、NIIがさまざまな研究機関や大学の協力を得て2023年4月から始動したのが「LLM勉強会」(英語名:LLM-jp)だ。黒橋氏によると、「まずはLLM分野で何が起きているのか、日本としてこれから何をやっていかなければいけないかということを議論する勉強会を設けた」とのこと。その勉強会はこれまで毎月のペースで開かれているが、そうした中で、「オープンかつ日本語に強いLLMを構築し、その原理解明に取り組もうという話になってきた。それを実践する計算機資源の手当てもできてきたので、LLM構築へ向けて本格的に動き出した」(黒橋氏)と言う。
日の丸LLMの研究開発プロジェクトが、いよいよ動き出した格好だ。日の丸LLMの名称は勉強会の英語名である「LLM-jp」が使われるようになった。そして、パラメータ数の目標も明示した。黒橋氏によると、「間もなく13Bモデルを構築し、2023年度中には175Bモデルの構築を目指す」とのことだ(図3)。
関連記事
- 「Weekly Memo」記事一覧
- AIによる「意思決定の自動化」は“正しいこと”なのか? IBMの最新調査から考察
生成AIを活用する最大のリスクは「人間が行う意思決定を委ねてしまうこと」ではないか。筆者がかねて抱いてきたこの懸念を、IBMの最新調査結果とともに考察したい。 - アクセンチュアの提言から考察する 「どうすれば生成AIをうまく使いこなせるか」
生成AIはどうすればうまく使いこなせるようになるのか。アクセンチュアの年次調査レポートから探る。 - 商用利用可能な70億パラメーターの日本語LLMをELYZAが公開 性能はGPT-3.5に匹敵
ELYZAはMetaのLlama 2をベースにした新しい日本語の大規模言語モデルを開発した。性能はGPT-3.5に匹敵するとされており、研究および商用利用が可能となっている。 - Microsoft、生成AIによる知的財産権侵害での法的リスクを負担する新方針を発表
Microsoftは生成AIの出力に関する知的財産権侵害での法的リスクを負うとする「Copilot Copyright Commitment」を発表した。
Copyright © ITmedia, Inc. All Rights Reserved.