「音声認識」が広がると、PCやスマホのUIはどう進化する?

» 2025年01月02日 10時00分 公開
[會田武史ITmedia]

この記事は、會田武史氏の著書『音声×AIがもたらすビジネス革命 VOICE ANALYSIS』(幻冬舎、2024年)に、編集を加えて転載したものです(無断転載禁止)。なお、文中の内容・肩書などはすべて出版当時のものです。

【過去の記事】

第1回:AIの基本を総復習 画像認識、テキストマイニング、音声データ……それぞれの強みとは?

第2回:「音声データ」の資産化を急げ AI時代、コールセンターが秘める可能性とは?

第3回:AIは言葉をどう“理解”するのか ChatGPTと会話が成立するワケ

 画像やテキストのAI活用と比べると、音声データはその使い方や効果が十分に認知されていません。それが音声認識の普及が遅れている一因になっています。

 しかし、未開拓であるこの分野にはさまざまな優れた技術があります。

 入力の面では、音声を自動でテキスト化できます。これは、会議や商談などの議事録作成で便利な機能です。翻訳ソフトと組み合わせることで、会話のテキスト化と外国語への翻訳をほぼリアルタイムに行うこともできます。

 処理の面では、「あー」「ええと」「あのー」という会話とは関係のないつなぎ言葉(フィラー)を認識し、自動で省くことができます。この機能により、議事録を自動作成する際に、これらを省いてきれいな状態でテキスト化できます。

音声データのAI活用分野にはさまざまな優れた技術があるという。写真はイメージ(ゲッティイメージズ)

著者プロフィール:會田 武史(あいだ・たけし)

photo

株式会社RevComm代表取締役

三菱商事株式会社にて自動車のトレーディング、クロスボーダーの投資案件・新会社設立、M&A案件等に従事。

2017年7月株式会社RevComm設立。電話解析AI「MiiTel Phone」、Web会議解析AI「MiiTel Meetings」、対面会話解析AI「MiiTel RecPod」を提供している。


「音声×画像×テキスト」の組み合わせで読み取るデータが増える

 出力の面では、会話相手の声の大きさ、抑揚、話すスピードなど声の特徴と、話している内容の両方を踏まえて、相手の感情を分析することもできます。テキストの情報は基本的に平坦です。文末の「!」や「……」や「(笑)」などを読み取ることで多少の感情を把握することはできますが、音声のほうが感情がより正確に反映されます。その情報を読み取ることで、より深く、立体的な分析ができます。

 これらの機能を使うことで、議事録、要約、感情分析という出力が得られますが、これらの機能とほかのAIを組み合わせることによって用途の幅はさらに広がります。

 音声認識と画像認識を組み合わせると、読み取るデータが増えます。例えば、顧客が「いいですね」と言ったとき、その音声だけを聞くよりも、顧客の表情を見ながら聞くほうが感情を読み取ることが容易になります。会話相手の身ぶり手ぶりを見ることで熱意の大きさなども読み取れます。商談では、この話で笑顔になった、このテーマで前のめりになったという情報を画像を使って補足することで、顧客が興味を示したポイントなどを特定しやすくなります。

 音声認識とテキストマイニングの組み合わせでは、テキスト化した音声データから特定のキーワードを抜き出し、会話の内容ごとに分類することができます。例えば、コールセンターでは、顧客からの問い合わせに含まれる単語からその内容を推察し、回答するために必要な資料を瞬時にオペレーターに提示することで、オブジェクションハンドリングやFAQの支援ができるようになります。

「音声認識」が広がるとUIはどう進化する?

 少し先に目を向けると、音声認識が普及し、当たり前になっていくことによってUI(ユーザーインターフェース)革命が起こります。スマートフォンやコンピューターなどに入力する手段が大きく変わるのです。

 現在の入力は、PCならキーボードとマウス、スマートフォンならフリック入力が主流です。これらのグラフィカルユーザーインターフェース(GUI)はユーザーの使いやすさを重視して、視覚的にも触覚的にも進化してきました。

 しかし、音声認識の精度が高まると音声入力のニーズが高まります。すでに世の中ではカーナビゲーションやAlexaのようなスマートスピーカーなどを音声で操作することが普及していますが、このようなデバイスが増えることで、GUIがボイスユーザーインターフェース(VUI)へと変わっていきます。

 VUIの長所の1つ目は、入力がハンズフリーであることです。カーナビゲーションはこの長所を生かし、運転者がハンドルから手を離すことなく安全に運転できます。手が空くことで別の作業もできるようになり「ながら」操作ができます。私も運転する際、少し前まではカーナビを指で操作して目的地入力などをしていましたが、最近はハンドルにあるボタン1つで「車に話しかけながら」目的地を設定したり変更したりすることに完全に慣れてしまい、GUIにはもう戻れなくなってしまいました。

写真はイメージ(ゲッティイメージズ)

 2つ目は、手動入力よりも速いことです。VUIに切り替えることにより操作時間の短縮につながり、タイパ(タイムパフォーマンス)が良くなります。今後は声質の分析能力も高まり、iPhoneが顔で個人を特定するように、声の識別によるセキュリティも高度化していきます。

 このような社会は、従来はSF映画の中の世界でした。しかし、技術的にも市場のニーズの面でも現実のものになろうとしています。近い将来社会科の教科書には、PCに向かってキーボードを打ち込んだり、スマートフォンを手で操作したりする様子がAIの進化の歴史として紹介されているかもしれません。

出力も声が主体に変わっていく

 入力が変わるだけでなく、出力も変わります。出力は、AIがはじき出した分析や示唆の結果のことで、これらを確認するためのUIも変わります。

 既存のAIからの出力は、文章やグラフなどで表現されます。画像認識を例にすると、出力された画像は目で見て確認する必要があり、動画も同じです。

 この長所は、視覚的に理解でき、分かりやすいことです。ただ、その裏側には、視覚を奪われるという大きな短所があります。

 テキストデータの出力についても同じです。AIによる分析結果が文章で出力される場合、私たちはそれを読むために視覚を奪われます。

 その点、音声は「ながら」聴きが可能です。分析結果を聞いたり、資料の内容を聞いたりしているときは、脳は多少はその内容の処理をしなければなりませんが、視覚は自由で、手も足も自由です。つまりAIからの出力を音声にすることで、行動範囲が広がり、自由に使える時間が増えます。

 資料を読む時間を「ながら」聞きに変えると、椅子に座って読んでいた時間が自由になります。2倍速で聞けばさらに時間が増えます。これは音声データを使わない人には得られない時間です。聴覚を最大限生かすことによってタイパが向上し、生産性も高くなります。

 合成音声が普及すると、情報を見たり読んだりするのではなく、聞く人が増えます。AI活用による行動変容が起きます。

 画像もテキストも詳細まで見なければならないデータもありますが、一方で、そこまで真剣に分析する必要がないデータもあります。そのようなときに音声データが便利です。音声は視覚的自由を与えるコミュニケーション手段で、「ながら」によって生産性を向上させることができます。

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ

SaaS最新情報 by ITセレクトPR
あなたにおすすめの記事PR