米Metaは5月22日(現地時間)、4000以上の音声言語を識別できる多言語大規模言語モデル「Massively Multilingual Speech」(MMS)のモデルとを研究コミュニティにオープンソースで公開したと発表した。
MMSプロジェクトでは、自己教師あり学習モデルの「wav2vec 2.0」、1100以上のラベル付き言語データ、約4000のラベルなし言語データのデータセットを使ってモデルを構築したという。4000以上の音声言語識別は既存技術の40倍の能力だとしている。
言語の音声データ収集に当たっては、多くの言語に翻訳されている聖書などの宗教文書の音声録音を活用した。1100以上の言語で新約聖書の朗読のデータセットを作成することで、言語ごとに平均32時間のデータを用意した。
プロジェクトの詳細については公式ブログを参照されたい。
「われわれの目標は、人々が好きな言語で情報に簡単にアクセスできるようにすること」で、「VRやAR、メッセージングサービスに至るまで、多様なサービスで人々が自分の母国語を使いつつ周囲の声を理解できるようになる」と語った。
つまり、メタバースでの自由な交流もMMSの目的の1つということだろう。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR