AIは言葉をどう“理解”するのか ChatGPTと会話が成立するワケ
AIの音声データ活用は、録音した音声を生音源としてそのまま扱うのではなく、いったんテキストデータに変換してから分析などに使う。
この記事は、會田武史氏の著書『音声×AIがもたらすビジネス革命 VOICE ANALYSIS』(幻冬舎、2024年)に、編集を加えて転載したものです(無断転載禁止)。なお、文中の内容・肩書などはすべて出版当時のものです。
【過去の記事】
AIの音声データ活用は、録音した音声を生音源としてそのまま扱うのではなく、いったんテキストデータに変換してから分析などに使います。具体的には、まず音声を音響分析して特徴抽出を行います。音響分析は、音声の周波数、強弱、間隔などの特徴を数値に変換し、AIが認識できる音声にすることです。
次に、音響分析したデータをAIが学習した発音辞書と照らし合わせます。そして、文字列が文章として適切かどうかを評価する言語モデルによって意味が通じる単語列に変換します。これらの工程を経て、最終的に意味が通じる自然な文章に組み立てられ、テキストとして出力されます。
著者プロフィール:會田 武史(あいだ・たけし)
株式会社RevComm代表取締役
三菱商事株式会社にて自動車のトレーディング、クロスボーダーの投資案件・新会社設立、M&A案件等に従事。
2017年7月株式会社RevComm設立。電話解析AI「MiiTel Phone」、Web会議解析AI「MiiTel Meetings」、対面会話解析AI「MiiTel RecPod」を提供している。
ここで重要なのは、AIが統計的手法で単語や文章を処理して、適切に扱えるようになってきているという点です。この仕組みの基盤となるのはニューラルネットワークです。これは人の脳のニューロンの働きを模して作る計算モデルです。人の脳が複数の情報を処理して会話をするように、AIのニューラルネットワークも似た仕組みによってデータを受け取り、適切な回答を導き出しています。
人間の脳は大脳皮質の左側または右側に言語野があり、言葉を理解する、話す、文字を理解するなどの言語機能を持っています。この機能を使うことで、仕事でも日常生活でも、人はコミュニケーションをとることができます。
人は、言語野を手に入れたことにより、知識や技術、感情や経験を伝えたり、聞いたりするだけでなく、それを記録に残して時空間を超えて伝承できるようになり、長い歴史のなかでその積み重ねが文化、文明、科学の発展につながっています。これはほかの動物には見られない高度な言語能力であり、人を人たらしめている脳の重要な機能といえます。
一方で、AIもこの機能を備え始めています。ChatGPTを例にすると、問いを投げ掛ければ、ChatGPTなりの答えが戻ってきます。そこでコミュニケーションが成立します。
AIは言葉をどう“理解”するのか?
AIとコミュニケーションが成立するのは、LLM(大規模言語モデル)を使って文章を生成しているためです。これは、膨大な量のテキストデータから人が使っている自然言語のパターンを学習し、単語の出現確率を分析して文章を生成するものです。
例えば、「おはよう」に続く単語は「ございます」、「あけまして」に続く単語は「おめでとうございます」である確率が高いという判断をしながら、単語を組み合わせて文章にし、文章を重ねることで人のような自然な会話を実現しています。
ひらがな、カタカナ、外来語、英語、敬語、同音異義語、さらには方言などの複合的要因により、日本語はあらゆる言語の中でも特に難易度が高いといわれます。
現状の音声認識やNLU(Natural Language Understanding:自然言語理解)エンジンで、この複合的要因によって生じる微妙な差異を100%理解することは難しいのですが、LLMの進化によって、標準語と方言、敬語と日常会話のような違いを含め、多様な言語変種や文脈を間違うことなく認識できるようになっています。
例えば、若者言葉やはやり言葉も学習します。例えば「やばい」には、危険という意味で使うときと、楽しい、おいしい、面白いというプラスの意味で使うときがあります。このような言葉も前後の文脈などから正しく意味を認識することができます。
この機能が高度化すると出力の質が向上し、LLMは人の言語野と同様の機能を持ち、近い将来には特定の分野では凌駕(りょうが)するようになります。円滑に会話ができるChatGPTの登場は、人の脳とAIの差が小さくなったことの表れといえます。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
「音声データ」は営業をどう変える? インサイドセールスと親和性が高いワケ
商談や電話などの口頭でのやりとりは大半が記録として残されていないため、「会話のブラックボックス問題」が生じる。AIを活用することで会話を解析・可視化して、営業活動にどのような変革をもたらすのかを解説する。
社内に眠る「音声データ」を収益源に AI時代に求められる「データ蓄積」の仕組みづくりとは?
AI時代に音声データを収集、蓄積、分析、共有する仕組みを構築することは、企業にとって競争優位を築くチャンスとなる。今回は、音声データの蓄積と、従業員の意識改革を進めるための具体策について解説する。
AI時代に「音声データ」が持つ価値とは? コミュニケーションを”資産化”する方法
音声データは比較的容易に収集できるうえ、話者のパーソナリティやニュアンス、緊急度など、多くの貴重な情報を含む。AIを掛け合わせることで、ビジネスに大きな変革をもたらす可能性がある。
根性論をなくす 人材育成を変革する「音声データ」活用法とは?
音声データの活用メリットは、営業力の強化や業務効率化だけではない。採用の強化や従業員の定着率向上といった副次的な効果も期待できる。
