メディア
ITmedia AI+ >

NTTが作った基盤モデルの特徴は? 大規模言語モデル「tsuzumi」についてメールインタビュー

» 2024年04月08日 12時00分 公開
[松浦立樹ITmedia]

 生成AIブームの今、注目のキーワードが「基盤モデル」だ。大量のデータを事前学習したAIモデルのことで、少しのチューニングを施せば、さまざまなタスクに対応できる。米OpenAIの「GPT-4」といった生成AIも包含する概念だ。

 さまざまな企業が生成AIを使った業務効率化を試行錯誤する中、各AIベンダーたちの間では基盤モデルの開発競争が激化している。そこでこの特集では、基盤モデルを開発するAIベンダーに一問一答メールインタビューを実施。開発状況や独自の強みなどを探っていく。今回は、大規模言語モデル「tsuzumi」を開発し、3月に商用サービスを始めたNTTに聞いた。

NTTの独自大規模言語モデル「tsuzumi」

NTTの基盤モデルの特徴や強みは何か?

 特長としては下記4点である。

  • 小型軽量である(70億パラメーター)
  • 長年の言語研究のノウハウがつまっており、特に日本語に強い
  • 小型軽量であるため柔軟なチューニングが可能
  • 視覚読解や音声関連技術などと組み合わせたマルチモーダル
tsuzumiとGPT-3の学習コスト比較
tsuzumiとGPT-3の推論コスト比較

基盤モデルで解決できる業務課題にはどのようなものがあるか?

 小型軽量であるためオンプレでも対応可能なものであり、心理的にクラウドであってもデータを外に出したくないという顧客に対応可能である。一方、小型軽量であるためチューニングは必要と考えており、基盤モデルをそのまま使うというよりも顧客と相談させていただき、それぞれに合った形で導入していきたい。

なぜ基盤モデルの開発を決めたのか?

 これまで自然言語研究を行ってきておりその成果をもとにNTT版のBERTの研究開発などを行ってきた。さらにtsuzumiはその技術を発展させて開発を行った。

他社と比較した際、競合有意性はどこにあるのか?

 上記の特長にある通り、小型軽量であるため下位のGPUでも動作可能であり、またオンプレでも動作可能である。また、柔軟なカスタマイズが可能である点と、例えば視覚相当の機能を用いて図表などを読み解き対応などのマルチモーダルである点が挙げられる。

 NTTの研究所では長期的に音声認識や感情分析などさまざまなモーダルを研究開発しており、それぞれを搭載させ多種多様なニーズに対応できる。

実際の言語モデルの回答比較とGPT-4の判定例

 tsuzumi発表会の様子はこちら

Copyright © ITmedia, Inc. All Rights Reserved.