CxO Insights

生成AIが互いに議論? 国立法人NICTが目指す「フェイクを見破る術」とは生成AI 動き始めた企業たち(2/4 ページ)

» 2023年09月06日 07時00分 公開
[濱川太一ITmedia]

Q. 自社のAI技術の強みは何か

 当機構の強みは、具体的に以下の3点です。

(1)大量の高品質な日本語学習データを蓄積済みであること

(2)高精度な分類を行う大規模言語モデルである日本語BERTを3年前に開発し、一般公開している質問応答システムや、民間企業と共同で開発した高齢者向け音声対話システムで活用し、さまざまなノウハウ、経験を蓄積していること

(3)大規模言語モデルを用いてはいないものの、災害時のSNSの分析システムなど、さまざまなAIシステムを開発し、その技術移転などを推進してきており、やはりさまざまなノウハウや経験を蓄積していること

NICTユニバーサルコミュニケーション研究所の計算機設備

 (1)については、当機構ではこれまで大量の日本語Webページ(420億ページ)を収集してきています。さらに、160億ページの情報をもとに、検索を用いてさまざまな質問に回答する大規模Web情報分析システム「WISDOM X」や、高齢者介護支援マルチモーダル音声対話システム「MICSUS」 (デモ動画を見る)などのさまざまな自然言語処理システムのために、大量の人手で作成、アノテーションした学習データを構築しています。その量、質については日本最大級、最高品質であると自負しています。

 今後は、こうしたデータやシステム開発のノウハウを、生成AI開発に応用していくとともに、公的機関としてさまざまな法律問題をクリアしつつ、民間企業などに提供していくことを検討しています。

 (2)について当機構では、生成AIについてさまざまなリスクが社会的に認知されており、ChatGPTの出現以前は日本企業の多くもそれほど前向きに取り組んでいなかったという認識でした。このため、仮に開発しても社会実装されるのはまだ先のことと考え、機構内においても生成AIの研究開発は基礎研究と位置付けており、開発を本格化したのはChatGPT出現以降の今年3月になってからです。

 一方で、BERTなどの識別系の大規模言語モデルについては、2020年に開発して以来、22年末まで日本語に関しては世界最高精度と認識しているものを開発。これまで紹介したWISDOM X、MICSUSなどの高精度を達成する原動力となっていました。このBERTに関しても種々の改良を加えて、音声認識誤りに頑健なバージョンや、対話システムが5000人と同時に対話する際の意味解釈を1枚のGPUで行える高速化されたバージョンなども開発し、さまざまなシステムで活用している上、さらなる高精度を目指して数十個を試作した経験があります。この際に得た経験も今後、機構内の研究で活用していくとともに、民間企業などに提供していくことを検討しています。

NICTが試作した400億のパラメータ(AIの学習規模を表す)を持つ大規模言語モデル(LLM)の返答例。プロンプトを途中まで入力するとLLMが続きのテキストを生成する

 (3)について、上記で説明したシステムとは別に、大災害時のSNSからの情報収集など、日本の重大な社会的課題の解決に寄与するAIシステムの研究開発、技術移転、社会実装の経験もあります。そうしたノウハウも今後、生成AI開発で活用していきます。なお、そもそも生成AIは汎用性のある技術であり、その他の社会課題解決のためにも応用可能であり、上記のようなデータや研究開発の経験、ノウハウもそうした応用で生きてくるものと考えます。

Copyright © ITmedia, Inc. All Rights Reserved.