400億パラメータで日本語特化 NICT、独自の生成AIを試作 「GPT-3」と同規模のモデルも開発中
情報通信研究機構(NICT)が、日本語に特化した大規模言語モデルを試作した。Webから独自収集した350GBの日本語テキストをもとに開発したモデルで、400億のパラメータを持つという。
情報通信研究機構(NICT)は7月4日、日本語に特化した大規模言語モデルを試作したと発表した。Webから独自収集した350GBの日本語テキストをもとに開発したモデルで、400億のパラメータを持つという。
試作したモデルは、プロンプトを途中まで入力すると、大規模言語モデルが続きのテキストを生成する。ファインチューニング、強化学習などは実施しておらず、「性能面ではChatGPTなどと比較できるレベルではない」ものの、日本語でのやり取りが可能な水準には達したという。ただし、事実と異なる内容や意味をなさないテキストを生成することも確認しているとする。
また、現在「GPT-3」と同規模となる1790億パラメータを持つモデルの事前学習をスタート。学習用テキストの大規模化にも取り組んでいるという。さらに、民間企業、大学、国立研究所などとの共同研究を拡大し、安全に活用できる大規模言語モデルの研究開発に産学官連携して取り組む予定としている。
NICTは、2018年にGoogleが発表した言語モデル「BERT」をもとに、独自に収集した日本語のWebテキストを用いて識別系言語モデルを構築。Web情報分析システムや介護支援用対話システムなどで利用されてきたという。一方で、生成言語モデルは偽情報やバイアス、悪用のリスクが指摘されていたことから、解決に時間を要すると判断。活用はもう少し先になるとして、生成言語モデルの研究開発を基礎研究にとどめ、これまで大規模に実施してこなかったという。
しかし、2022年にChatGPTが登場して以降、生成系言語モデルの有効性に大きな注目が集まった。その開発力が他分野にも影響する可能性があり、日本の開発力強化も課題となっていることから、NICTでも生成系言語モデルの開発を本格化したとしている。なお、試作モデルの開発期間は、これまでの言語モデルに対するノウハウもあったことから、UI含め4カ月で完成したという。
関連記事
- サイバーエージェント、日本語の大規模言語モデルを一般公開 最大68億パラメータ 商用利用可能
サイバーエージェントは最大68億パラメータの日本語LLM(大規模言語モデル)を一般公開した。ライセンスはCC BY-SA-4.0で、商用や研究目的で自由に利用できる。 - 「りんな」開発元、大規模言語モデルを公開 36億パラメーターで日本語特化
コミュニケーションAI「りんな」を提供するrinnaが、GPTベースの大規模言語モデルをオープンソースで公開した。日本語に特化した36億パラメーターを持つ汎用言語モデルと、対話言語モデルの2種類を用意する。 - “ダークウェブ”を学習した大規模言語モデル「DarkBERT」 韓国の研究者らが開発
韓国のKAISTとS2W Inc.に所属する研究者らは、ダークウェブに特化した大規模言語モデルを提案した研究報告を発表した。 - 生成AIに“生成AIが作った文章”を学習させ続けるとどうなる? 「役立たずになる」と英国チームが報告
英オックスフォード大学や英ケンブリッジ大学、英インペリアル・カレッジ・ロンドン、米トロント大学に所属する研究者らは、GPT-4などの大規模言語モデル(LLM)が別のLLMが生成したテキストを学習し続けるとどうなるかを調査した研究報告を発表した。 - AWS、日本企業のLLM開発支援プログラム 600万ドル規模のクレジット提供、技術サポートも
AWSを使って大規模言語モデルを開発する日本の企業・団体を、コストや技術面で支援する「AWS LLM開発支援プログラム」の応募受付がスタート。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.