議事録作りだけではない AI「音声認識」の可能性を考えるアナリストの“眼”で世界をのぞく

画像認識技術に比べて音声認識技術の用途は限定されている。ビジネスの場での活用は、コールセンターでの電話音声の文字起こしや会議の議事録作成にとどまっているのが現状だ。しかし、将来的には売り上げに貢献することが期待されているという。

» 2022年05月27日 14時00分 公開

この記事は会員限定です。会員登録すると全てご覧いただけます。

この連載について

目まぐるしく動くIT業界。その中でどのテクノロジーが今後伸びるのか、同業他社はどのようなIT戦略を取っているのか。「実際のところ」にたどり着くのは容易ではありません。この連載はアナリストとしてIT業界とその周辺の動向をフラットに見つめる矢野経済研究所 小林明子氏(主席研究員)が、調査結果を深堀りするとともに、一次情報からいかにインサイト(洞察)を導き出すか、その“道のり”を明らかにします。

筆者紹介:小林明子(矢野経済研究所 主席研究員)

2007年矢野経済研究所入社。IT専門のアナリストとして調査、コンサルテーション、マーケティング支援、情報発信を行う。担当領域はDXやエンタープライズアプリケーション、政府・公共系ソリューション、海外IT動向。第三次AIブームの初期にAI調査レポートを企画・発刊するなど、新テクノロジー分野の研究も得意とする。


 矢野経済研究所は2021年12月に音声認識市場の調査結果を発表した。2021年に筆者が音声認識技術を調査テーマとした理由の一つは、「コロナ禍で非接触技術のニーズが高まっている。音声認識技術もその一つではないか」と考えたからだった。身近にある機械などを音声を使って操作すれば、手で触れて操作しなくてもよい。

音声認識市場は好調だが、理由は「非接触だから」ではない

 しかし、音声認識ベンダーへの取材を始めるとすぐ、その想定は否定されることとなった。ある取材先はこう話してくれた。「コロナ禍が始まった当初は、私も音声認識のニーズにつながるのではないかと思ったが、すぐ違うことが分かった。音声認識は声を出すわけだ。マスクを着け、かつ喋らないことが最優先なので、音声認識は使えない」。言われてみればその通りだ。当たり前のようだが気付かなかった。ATMやセフルレジなど街中の利用場面を想定してみても、不特定多数の人が使うマイクに向かって喋るユーザーインタフェースでは衛生面が気になってしまうだろう。

 調査着手に当たってのもくろみは外れたものの、音声認識市場は好調だ。矢野経済研究所は、2020年度の音声認識市場は114億円、2021年度の音声認識市場は131億円(前年度比14.9%増)になると推計した。2022年度以降も成長を維持し、2020〜2025年度までのCAGR(年平均成長率)は16.4%で成長し、2025年度には244億円に達すると予測する。

音声認識市場の推移(2020〜2025年度予測)※事業者売上高ベース(出典:矢野経済研究所「2022 音声認識技術の活用実態と展望 〜AI技術調査シリーズ〜」2021年12月発刊) 音声認識市場の推移(2020年度〜2025年度予測)※事業者売上高ベース(出典:矢野経済研究所「2022 音声認識技術の活用実態と展望 〜AI技術調査シリーズ〜」2021年12月発刊)

将来的なビジネスでの活用例3つ 営業力向上にも

 一方で、ビジネスの現場で利用されるAI(人工知能)技術としては、音声認識より画像認識の方が身近かもしれない。画像認識は製造業の外観検査(傷や不良品、異物などの自動検出)や建物やインフラの劣化診断、顔認識技術を使った入場管理、ECサイトなどでの類似画像検索、自動運転車への搭載など、幅広い場面で実装が進んでいる。それと比較すると、音声認識の基本的な役割の一つである「音声のテキスト化」は、現状ではコールセンター/コンタクトセンターを中心とした電話音声の文字起こしや議事録の作成支援、音声入力など用途が比較的限定的だ。

 消費者個人としては、「Siri」などスマートフォンの音声アシスタントや、「Amazon Alexa」や「Google Home」といったスマートスピーカーなど、ほとんど誰でも利用する機会を持つことができ、接点が多い技術と言えるだろう。しかし、「SiriやAlexa相手ではいまいち会話が成り立たない」という経験をした人も少なくないはずだ。音声認識の精度や有用性に疑問を持っている人もいるのではないだろうか。  

 AIとの対話は関連技術との組み合わせで行われる。例えば、スマートスピーカーに「明日の天気を教えて」と話しかけて「明日の中野区の天気は晴れです」という返事が返ってくるのは、音声認識でテキスト化し、自然言語処理で天気の問い合わせであることを理解し、検索で天気の情報を獲得し、AI対話技術により回答を自然文で作成し、音声合成を使って音声で答える、といった複合的な技術が利用されている。

 用途がまだ限定的であるということは、新たな用途の開発の余地が大きいともいえる。ここでは音声認識の新たな用途やポテンシャルを含めて3つの利用例を解説したい。市場の成長を予測したが、市場環境におけるプラスの要因は中長期的なインパクトがあるものが多いと考える。DXの進展に伴う業務のデジタル化や自動化の潮流に加え、AI技術の一層の進歩に伴って利用が進むと想定する。

Copyright © ITmedia, Inc. All Rights Reserved.