2015年7月27日以前の記事
検索
ニュース

AIは言葉をどう“理解”するのか ChatGPTと会話が成立するワケ

AIの音声データ活用は、録音した音声を生音源としてそのまま扱うのではなく、いったんテキストデータに変換してから分析などに使う。

Share
Tweet
LINE
Hatena
-

この記事は、會田武史氏の著書『音声×AIがもたらすビジネス革命 VOICE ANALYSIS』(幻冬舎、2024年)に、編集を加えて転載したものです(無断転載禁止)。なお、文中の内容・肩書などはすべて出版当時のものです。

【過去の記事】

第1回:AIの基本を総復習 画像認識、テキストマイニング、音声データ……それぞれの強みとは?

第2回:「音声データ」の資産化を急げ AI時代、コールセンターが秘める可能性とは?

 AIの音声データ活用は、録音した音声を生音源としてそのまま扱うのではなく、いったんテキストデータに変換してから分析などに使います。具体的には、まず音声を音響分析して特徴抽出を行います。音響分析は、音声の周波数、強弱、間隔などの特徴を数値に変換し、AIが認識できる音声にすることです。

 次に、音響分析したデータをAIが学習した発音辞書と照らし合わせます。そして、文字列が文章として適切かどうかを評価する言語モデルによって意味が通じる単語列に変換します。これらの工程を経て、最終的に意味が通じる自然な文章に組み立てられ、テキストとして出力されます。


AIの音声データ活用は、録音した音声を生音源としてそのまま扱うのではなく、いったんテキストデータに変換してから分析などに使う。写真はイメージ(ゲッティイメージズ)

著者プロフィール:會田 武史(あいだ・たけし)

photo

株式会社RevComm代表取締役

三菱商事株式会社にて自動車のトレーディング、クロスボーダーの投資案件・新会社設立、M&A案件等に従事。

2017年7月株式会社RevComm設立。電話解析AI「MiiTel Phone」、Web会議解析AI「MiiTel Meetings」、対面会話解析AI「MiiTel RecPod」を提供している。


 ここで重要なのは、AIが統計的手法で単語や文章を処理して、適切に扱えるようになってきているという点です。この仕組みの基盤となるのはニューラルネットワークです。これは人の脳のニューロンの働きを模して作る計算モデルです。人の脳が複数の情報を処理して会話をするように、AIのニューラルネットワークも似た仕組みによってデータを受け取り、適切な回答を導き出しています。

 人間の脳は大脳皮質の左側または右側に言語野があり、言葉を理解する、話す、文字を理解するなどの言語機能を持っています。この機能を使うことで、仕事でも日常生活でも、人はコミュニケーションをとることができます。

 人は、言語野を手に入れたことにより、知識や技術、感情や経験を伝えたり、聞いたりするだけでなく、それを記録に残して時空間を超えて伝承できるようになり、長い歴史のなかでその積み重ねが文化、文明、科学の発展につながっています。これはほかの動物には見られない高度な言語能力であり、人を人たらしめている脳の重要な機能といえます。

 一方で、AIもこの機能を備え始めています。ChatGPTを例にすると、問いを投げ掛ければ、ChatGPTなりの答えが戻ってきます。そこでコミュニケーションが成立します。

AIは言葉をどう“理解”するのか?

 AIとコミュニケーションが成立するのは、LLM(大規模言語モデル)を使って文章を生成しているためです。これは、膨大な量のテキストデータから人が使っている自然言語のパターンを学習し、単語の出現確率を分析して文章を生成するものです。

 例えば、「おはよう」に続く単語は「ございます」、「あけまして」に続く単語は「おめでとうございます」である確率が高いという判断をしながら、単語を組み合わせて文章にし、文章を重ねることで人のような自然な会話を実現しています。

 ひらがな、カタカナ、外来語、英語、敬語、同音異義語、さらには方言などの複合的要因により、日本語はあらゆる言語の中でも特に難易度が高いといわれます。

 現状の音声認識やNLU(Natural Language Understanding:自然言語理解)エンジンで、この複合的要因によって生じる微妙な差異を100%理解することは難しいのですが、LLMの進化によって、標準語と方言、敬語と日常会話のような違いを含め、多様な言語変種や文脈を間違うことなく認識できるようになっています。

 例えば、若者言葉やはやり言葉も学習します。例えば「やばい」には、危険という意味で使うときと、楽しい、おいしい、面白いというプラスの意味で使うときがあります。このような言葉も前後の文脈などから正しく意味を認識することができます。

 この機能が高度化すると出力の質が向上し、LLMは人の言語野と同様の機能を持ち、近い将来には特定の分野では凌駕(りょうが)するようになります。円滑に会話ができるChatGPTの登場は、人の脳とAIの差が小さくなったことの表れといえます。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る