音声AIも“不気味の谷”を超えた？　Oculus元CEOによるAIが「ほぼ人間」と話題に　社会への影響は（2/3 ページ）

公開 2025年03月28日 12時02分

[ITmedia]

印刷する連載新着通知を受け取る

　Sesameは自社が開発した技術を「CSM（Conversational Speech Model：対話型音声モデル）」と名付けている。同社の解説によると、彼らは人間と会話しているときに感じられる「存在感」をAIとの会話の中に再現することで、AIが単なる命令処理機器ではなく、感情や文脈に寄り添うパートナーとして機能することを目指している。その夢を実現する土台となるのがCSMというわけだ。

　CSMは、大きく分けて2つの部分から成り立っている。1つは、会話の「意味」を理解する部分（バックボーン）である。この部分は、会話の全体の流れや文脈、つまり「何を話しているか」「どんな雰囲気か」を理解する。例えば会話している相手が「楽しかった！」と明るい声で言うとき、その発言と声のトーンなどから、楽しさや喜びを感じ取るようなイメージだ。

　もう1つが、自然な音声を作り出す部分（デコーダー）である。ここでは、バックボーンで理解した内容をもとに、実際に「声」を出力するための作業を行う。ここでは声のトーンやリズム、間の取り方など、実際の話し方の細かい部分がつくり上げられる。CSMでは、これら2つの処理を統合、一連の処理として対応している。

　従来のTTS（テキスト・トゥー・スピーチ）システムでは、人間や他のAIシステムが用意した文章をそのまま読み上げるだけだった。そのため、感情や状況に合わせた声の変化がほとんどなく、単調でロボットっぽく感じが出てしまっていた。

　しかしCSMでは「意味を理解する」と「声を作る」という工程を分けることで、会話の内容や雰囲気に合わせた自然な発話ができるようになっている。例えばユーザーの発話から不満が感じられた場合、SesameのAIは声を和らげたり、ペースを落としたり、イントネーションを調整したりして共感を伝えられ、会話相手（人間）からよりポジティブな反応を引き出せるというわけだ。

　またデコーダー部分にも進化が見られる。人間の会話は、タイミングの変化や、何かを強調するためや考える時間を取るための休止の使用、話すペースの変化など、自然な流れが特徴となっている。CSMはこれらを模倣でき「えーと」や「あのね」などの自然なつなぎ言葉を取り入れ、息づかいやためらい、笑い声といった微妙な音を作り出すことで、より本物の会話らしい感覚を与えることに貢献している。

　CSMでは、コンテキスト認識、つまり会話の文脈に沿った反応を返すという点でも大きな改善が見られている。単純な音声アシスタントの場合、ユーザーの発話を個別に扱うことが多いが、CSMでは会話の前のターンの文脈を記憶し、活用する設計となっている。

　これにより、対話の連続性が維持でき、以前のトピックを参照したり、対話の履歴に基づいて話し方を調整したりができるというわけだ。Sesameの解説によれば、CSMは過去2分間の会話を記憶する能力があり、文脈に適切で一貫性のある応答を提供可能という。

　こうした機能や特徴により、人間との会話に非常に近いコミュニケーションを実現しているSesameのAI。とはいえ、まだ完全に人間と同じとはいえないようだ。あるブラインドテストでは、会話の文脈が無かった場合、人間の評価者はCSMの生成音声と実際の人間の録音音声との間に明確な好みの違いを見せなかった。

　しかし会話文脈が与えられた場合、評価者は依然として、実際の人間の音声を好む傾向が見られたそうである。完全に文脈のある音声生成には、まだ改善が必要だということだろう。

次ページへ「ほぼ人間」な音声AIが秘める可能性