「音声」が業務を変える――AI音声認識を最大限に活用するための音響設備とは

PR/ITmedia
» 2025年01月23日 10時00分 公開
PR

 AIが急速に発展し、私たちの業務を強力に支援するツールとなりつつある。AIが役に立つ場面はいくつかあるが、特に多くのビジネスパーソンが活用しているのは会議やセミナーの内容をテキスト化する文字起こしツールなどに使われる「音声認識」ではないか。会議中にメモを取ったり録音を聞き直したりする必要があった作業をAIが担ってくれる。リアルタイムにテキスト化するツールもある。音声認識技術は、コールセンターのオペレーター支援や工場の機械操作、建築現場の検査記録などさまざまなシーンでも活用されている。

 音声をテキスト化する技術はAIの発達によって進化しており、非常に高い認識精度を実現するようになった。ただし、それは入力する音声がクリアであることが大前提だ。

 高精度の音声認識技術を最大限に生かすには、音声をクリアに収音、記録、伝達するためのマイクやオーディオプロセッサーが欠かせない。AI時代の音声活用について、音声認識エンジン「AmiVoice」で知られるアドバンスト・メディアの川嶋創司氏と、シュア・ジャパンの上條智史氏に聞いた。

photo (左から)シュア・ジャパン 上條智史氏(マーケット・デベロップメント部 アソシエイトマネージャー)、アドバンスト・メディア 川嶋創司氏(VoXT事業部 営業グループ セクションマネージャー)

多方面で活用が進む音声認識 ポイントは音声の品質

 1997年に創業したアドバンスト・メディアは、国内の音声認識市場のパイオニアとして独自の音声認識技術「AmiVoice」を開発。2002年には、分散型音声認識技術「AmiVoice DSR」(Distributed Speech Recognition)を発表している。

 初期の音声認識技術は主に統計的手法が用いられていた。この手法は大規模なデータ処理に限界があり、あいまいな表現の多い自然言語処理は苦手だった。その克服に貢献したのがディープラーニング技術の発展だ。ディープラーニングの活用でエラー回避率は大幅に向上した。音声認識技術はその後も進化し続け、「LSTM」(Long Short Term Memory:長・短期記憶)や「Transformer」「End-to-End音声認識」といった方式が登場している。

photo

 「AmiVoiceの導入実績は2万件以上になります。技術の発展に伴い安価なサブスクリプションサービスとして提供できるようになったことで、今後もさらなる利用拡大が見込まれます。

 現在のAmiVoiceは、人間の発話を正確に認識できるレベルに達しています。話者の声質による認識精度の差も小さく、どのような声も正しくテキスト化できるようになりました。特定業界向けの特化型エンジンが特に人気で、コールセンターや金融、保険、介護、製造、物流、教育など幅広い分野で活躍しています」(川嶋氏)

 AmiVoiceをはじめとした日本語の音声認識技術は、1.入力された音声から音素を抽出して、2.発音辞書を用いて音素から単語の候補を抽出。3.言語モデルで前後の文脈から適切な単語を選ぶ。という流れで処理される。

 川嶋氏によると、日本語は特に同音異義語が多いのでこの過程が非常に重要であり、認識精度を高めるポイントだ。アドバンスト・メディアが特定分野向けのエンジンを提供できるのは、古くから日本語に特化して膨大な学習データやノウハウを蓄積してきたからだという。

 「アドバンスト・メディアは、さまざまな会話の音声データを各所から調達する体制を敷き、その膨大な音声を人間の手によって忠実に文字起こしする『スクライビングセンター』を設置しています。この潤沢な学習データこそがAmiVoiceの強みの根幹です。優れた音声認識エンジンの能力を最大限発揮するには、クリアな音声を認識させることが重要です。人にとって聞きとりやすい音声は、音声認識にとっても同様です。声を活用したいのであれば、音声品質を向上させる仕組み――すなわち音響設備の向上は必須です」

音声品質の劣化が業務改善の妨げに

 「音響設備の向上」は音声解析を活用するためだけでなく、会議の質を高めるためにも欠かせない。働き方が多様化したことでWeb会議は重要なコミュニケーション手段の一つとなった。オフィス回帰の流れが顕著になった昨今は、会議室と遠隔地をつなぐ「ハイブリッド会議」が主流になりつつある。

photo

 シュア・ジャパンの上條氏によると、Web会議が当たり前になったことで、従業員の不満は「会議にうまく入れない」といったものから「相手の声が聞き取りにくい」「会議室側の会話に参加しにくい」など“音”にまつわるものに変化しているという。「音声の課題は“公平な議論が実現できない”という深刻な問題に直結します」

 この課題の主な原因は収音するマイクにあることが多いと上條氏は話す。「機材が安価で低品質」「設置場所が悪い」「会議室のサイズに合っていない」などの理由で適切に収音できていないのだ。文字起こしツールを使ってテキスト化したが正確に出力できないと悩む読者も多いだろう。

 「音声認識技術を最大限に生かすには、グースネックマイクやハンドマイクを使った収音が理想です。しかしビジネスシーンにおいて人数分のマイクを用意するのは現実的ではありません。導入や設置の負担をできるだけ抑え、利用者が使いやすく会議参加者の声をしっかりと収音できる音響ソリューションの導入が望ましいと考えます」(上條氏)

 会議室の音響設備は、全ての参加者に影響するシステムであると認識すべきだ。だが、さまざまなソリューションがあるので選定に悩んでしまうのは当然だ。上條氏は「なじみ深いデバイスだからこそ、利用シーンに応じた機器を選ぶという意識が薄らいでいるようです」と警鐘を鳴らす。

 「『小規模な会議室で性能を十分に発揮できたから』と、大規模な会議室に同じ製品を導入するケースが目立ちます。結果として十分な音声品質を保てず、会議の質が低下して参加者にストレスを感じさせてしまうのです。マイクやスピーカーは全ての参加者が直接関わる音響システムです。だからこそ設置する場所や利用目的に応じたものを選ぶべきです。特にハイブリッド会議は、音の質が会議の結果を左右します」

 Shureと調査会社のIDCが6カ国(米国、英国、フランス、ドイツ、中国、日本)を対象に実施した調査では、ハイブリッド会議は自然な議論の流れを把握するのが難しく(60%)、リモート参加者は注意が散漫になる/議論の輪から外れやすい(48%)。リモート参加者は、オフィスの参加者と同じように会話に参加して対話をリードすることが難しい(60%)という意見が多かった。IDCは「“低い音質”が直接あるいは間接的にハイブリッド会議の問題になっている」と指摘している。

 特に欧米は、音声品質が悪いと「フラストレーションがたまる」「生産性が低下する」と答えた企業が半数を超え、会議室の構築に高品質な音響設備を重視する声が多い。

 会議の音にストレスを感じているとその後の業務にストレスが連鎖する。クリアな音声データを得られなければ音声認識の解析結果が悪化し、手作業で修正したり議事録を一から作ったりしなければならないからだ。これでは業務効率化や改善につながらない。

 「コミュニケーションの活性化を目的に音響設備を強化すれば、その後のテキスト化でも良好な結果を得られるようになります。AmiVoiceのリアルタイム音声認識によるテキスト化が可能になれば、会議内容の回覧を即座に実施できますし、AIによる要約の精度も上がって議事録作成が不要になり、業務効率化に貢献できます」(川嶋氏)

Web会議の質を高める音響設備で音声認識の結果も向上

 ではどのような音響機器を選べばよいのか。上條氏は次のように話す。

 「シュア・ジャパンがお客さまにマイクを提案する際は、『空間の音をいかに忠実にキャッチできるか』という観点を第一に考えています。Web会議におけるストレス連鎖の最上流にあるのがマイクの品質です。マイクで収音した時点の品質が最大値となるため、それが低ければ下流にある各デバイスで扱える音の品質は低下します。もちろん使い勝手や運用管理、準備のしやすさも忘れてはなりません。会議室の広さや使用目的に応じた製品の案内が可能です」

 プロフェッショナルオーディオで培った技術を搭載したShureの会議室向けソリューションは利用シーンに応じたラインアップを展開しており、企業をはじめ自治体や大学など多数の導入実績がある。

 議事録が重要な役割を担う会議場や地方議会などでは、話者の声を直接に受け取る「ワイヤレスグースネックマイク」が主力だ。上條氏が“理想”と述べたように、参加者の発言を正確に収音、記録できる。ビジネスシーンにおいては、卓上に設置して複数人の声を拾う「テーブルアレイマイク」や天井に設置する「シーリングアレイマイク」が人気だと上條氏は話す。

 「一昔前のシーリングアレイマイクは、『正しく収音できない』と指摘されることがありました。しかし現在は、技術の進歩によってその不安は解消されています。Shureのシーリングアレイマイクは指向性が高く、会議参加者が漏らした小声の発言も収音します。専用のオーディオプロセッサーとの組み合わせでエアコンなどのノイズを除去でき、オンライン参加者にクリアな音声を届けられます。音声や制御信号、電力はPoE+対応のイーサネットケーブル1本で賄える他、使いやすいようにインテグレートできる点も支持されています」

 上條氏によれば、Shureのシーリングアレイマイクと文字起こしツールを組み合わせて会議の議事録作成に活用しているケースも増えているという。

進化する音声認識、音響技術 業務効率化へのソリューション

 両氏が話すように、音声認識技術、収音・音声処理技術はここ数年で大きく進化している。AIを活用して会議内容のテキスト化や音声によるデータ入力などを検討している企業は、音声認識サービスの導入と併せて音響設備の更新を検討してほしい。ソフト、ハードの両面からビジネスを強力にサポートしてくれるはずだ。

photo

Copyright © ITmedia, Inc. All Rights Reserved.


提供:シュア・ジャパン株式会社
アイティメディア営業企画/制作:ITmedia NEWS編集部/掲載内容有効期限:2025年2月18日