村田製作所は、話し手の声だけを抽出するマスク装着型の音声入力デバイス「mask voice clip」を10月14日に開幕したテクノロジーイベント「CEATEC 2025」(幕張メッセ)で展示している。会場では、話し声が飛び交う環境下でも、デバイスが話者の声のみを正確に捉える様子を確認できる。
mask voice clipは、マスクの内側にクリップで装着する小型デバイスだ。発話時に生じるマスク表面の微細な振動を圧電フィルムセンサーで直接検出する構造により、話者の声だけを抽出する。工場や医療現場などの騒音環境下や、複数の話者がいる場所での活用を見込む。
各ブースのアナウンスや来場者の声が入り混ざるCEATECの会場内で、担当者に装着してもらった。比較用に設置された通常のマイクによる文字起こしには周囲の音声が混入していたが、mask voice clipではほとんど影響を受けていない。デモ用に作られた試作品ながら、効果のほどを確認できる展示となっていた。
なぜ、高精度な音声入力デバイスの開発に取り組んでいるのか。背景にあるのは、生成AI技術の進歩だ。「音声から意図をくみ取り、内容を補完して議事録化することが可能になった。いずれも、以前なら実現できなかったことだ」と担当者は話す。「タップ入力に続く次のインタフェースは音声入力だと考えている」
目指すのは、メールやメモの作成を「タイピングいらず」「フリック入力いらず」で行える未来だ。ささやき声や口パクでも入力できる「サイレントスピーチ」対応の音声インタフェースを見据えているという。「公共の場でAlexaやSiriに話しかけるのはためらわれるが、ひそひそ声で済むなら使える場面は広がる。“サイレント”は、次に来るデバイスの基盤になるのではないか」
現時点で公表しているのは「マスク装着型」のみ。他の形状については「他にもやっていることはある」というが、具体的な内容は明かしていない。「ハードウェアだけでなく、どのようなアプリと接続するかといったインタフェース設計も重要になる」と担当者は説明した。
先端テクノロジーを誇る有力ベンダーと最新トレンドを探るユーザー企業が一堂に会するマッチングイベント「ITmedia Apex Innovations 2025 秋」。有識者が「AIエージェント」「次世代ロボティクス」「量子コンピュータ」の実践的な知見を語ります。
口パクで音声入力できるマスク、東大などが開発 約8割の精度で音声を認識
テキストだけで、AIが3Dモデルを自動生成 米Googleなどの研究チームが開発
自分の声を人気キャラの声に変換 AIボイスチェンジャーをドワンゴが4月に発売
OpenAIの「Voice Engine」は15秒分の声データを元に本人そっくりに喋る
PCで「フリック入力」できる専用デバイス キーボードが使えない“スマホネイティブ”世代向けCopyright © ITmedia, Inc. All Rights Reserved.
Special
PR