情報通信研究機構(NICT)は7月4日、日本語に特化した大規模言語モデルを試作したと発表した。Webから独自収集した350GBの日本語テキストをもとに開発したモデルで、400億のパラメータを持つという。
試作したモデルは、プロンプトを途中まで入力すると、大規模言語モデルが続きのテキストを生成する。ファインチューニング、強化学習などは実施しておらず、「性能面ではChatGPTなどと比較できるレベルではない」ものの、日本語でのやり取りが可能な水準には達したという。ただし、事実と異なる内容や意味をなさないテキストを生成することも確認しているとする。
また、現在「GPT-3」と同規模となる1790億パラメータを持つモデルの事前学習をスタート。学習用テキストの大規模化にも取り組んでいるという。さらに、民間企業、大学、国立研究所などとの共同研究を拡大し、安全に活用できる大規模言語モデルの研究開発に産学官連携して取り組む予定としている。
NICTは、2018年にGoogleが発表した言語モデル「BERT」をもとに、独自に収集した日本語のWebテキストを用いて識別系言語モデルを構築。Web情報分析システムや介護支援用対話システムなどで利用されてきたという。一方で、生成言語モデルは偽情報やバイアス、悪用のリスクが指摘されていたことから、解決に時間を要すると判断。活用はもう少し先になるとして、生成言語モデルの研究開発を基礎研究にとどめ、これまで大規模に実施してこなかったという。
しかし、2022年にChatGPTが登場して以降、生成系言語モデルの有効性に大きな注目が集まった。その開発力が他分野にも影響する可能性があり、日本の開発力強化も課題となっていることから、NICTでも生成系言語モデルの開発を本格化したとしている。なお、試作モデルの開発期間は、これまでの言語モデルに対するノウハウもあったことから、UI含め4カ月で完成したという。
サイバーエージェント、日本語の大規模言語モデルを一般公開 最大68億パラメータ 商用利用可能
「りんな」開発元、大規模言語モデルを公開 36億パラメーターで日本語特化
“ダークウェブ”を学習した大規模言語モデル「DarkBERT」 韓国の研究者らが開発
生成AIに“生成AIが作った文章”を学習させ続けるとどうなる? 「役立たずになる」と英国チームが報告
AWS、日本企業のLLM開発支援プログラム 600万ドル規模のクレジット提供、技術サポートもCopyright © ITmedia, Inc. All Rights Reserved.
Special
PR