小林啓倫のエマージング・テクノロジー論考
音声AIも“不気味の谷”を超えた? Oculus元CEOによるAIが「ほぼ人間」と話題に 社会への影響は(2/3 ページ)
Sesameは自社が開発した技術を「CSM(Conversational Speech Model:対話型音声モデル)」と名付けている。同社の解説によると、彼らは人間と会話しているときに感じられる「存在感」をAIとの会話の中に再現することで、AIが単なる命令処理機器ではなく、感情や文脈に寄り添うパートナーとして機能することを目指している。その夢を実現する土台となるのがCSMというわけだ。
CSMは、大きく分けて2つの部分から成り立っている。1つは、会話の「意味」を理解する部分(バックボーン)である。この部分は、会話の全体の流れや文脈、つまり「何を話しているか」「どんな雰囲気か」を理解する。例えば会話している相手が「楽しかった!」と明るい声で言うとき、その発言と声のトーンなどから、楽しさや喜びを感じ取るようなイメージだ。
もう1つが、自然な音声を作り出す部分(デコーダー)である。ここでは、バックボーンで理解した内容をもとに、実際に「声」を出力するための作業を行う。ここでは声のトーンやリズム、間の取り方など、実際の話し方の細かい部分がつくり上げられる。CSMでは、これら2つの処理を統合、一連の処理として対応している。
従来のTTS(テキスト・トゥー・スピーチ)システムでは、人間や他のAIシステムが用意した文章をそのまま読み上げるだけだった。そのため、感情や状況に合わせた声の変化がほとんどなく、単調でロボットっぽく感じが出てしまっていた。
しかしCSMでは「意味を理解する」と「声を作る」という工程を分けることで、会話の内容や雰囲気に合わせた自然な発話ができるようになっている。例えばユーザーの発話から不満が感じられた場合、SesameのAIは声を和らげたり、ペースを落としたり、イントネーションを調整したりして共感を伝えられ、会話相手(人間)からよりポジティブな反応を引き出せるというわけだ。
またデコーダー部分にも進化が見られる。人間の会話は、タイミングの変化や、何かを強調するためや考える時間を取るための休止の使用、話すペースの変化など、自然な流れが特徴となっている。CSMはこれらを模倣でき「えーと」や「あのね」などの自然なつなぎ言葉を取り入れ、息づかいやためらい、笑い声といった微妙な音を作り出すことで、より本物の会話らしい感覚を与えることに貢献している。
CSMでは、コンテキスト認識、つまり会話の文脈に沿った反応を返すという点でも大きな改善が見られている。単純な音声アシスタントの場合、ユーザーの発話を個別に扱うことが多いが、CSMでは会話の前のターンの文脈を記憶し、活用する設計となっている。
これにより、対話の連続性が維持でき、以前のトピックを参照したり、対話の履歴に基づいて話し方を調整したりができるというわけだ。Sesameの解説によれば、CSMは過去2分間の会話を記憶する能力があり、文脈に適切で一貫性のある応答を提供可能という。
こうした機能や特徴により、人間との会話に非常に近いコミュニケーションを実現しているSesameのAI。とはいえ、まだ完全に人間と同じとはいえないようだ。あるブラインドテストでは、会話の文脈が無かった場合、人間の評価者はCSMの生成音声と実際の人間の録音音声との間に明確な好みの違いを見せなかった。
しかし会話文脈が与えられた場合、評価者は依然として、実際の人間の音声を好む傾向が見られたそうである。完全に文脈のある音声生成には、まだ改善が必要だということだろう。
Copyright © ITmedia, Inc. All Rights Reserved.
小林啓倫のエマージング・テクノロジー論考
生成AIやメタバース、新たなサイバー攻撃など、テクノロジーの進化が止まらない。少しずつ生活の中に浸透し、その恩恵を預かれることもある一方、思いもよらない問題を生み出すこともある。このコーナーでは、さまざまな分野の新興技術「エマージング・テクノロジー」について、小林啓倫氏が解説する。
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「国産人型ロボ」量産化へ 東大発スタートアップ 三菱自動車も出資
-
2
それで、メモリ不足はいつまで続くの? なかなか終わらない狂騒のウラ側
-
3
「Nano Banana 2」「Nano Banana Pro」が一般提供開始 「2」は動画からの画像生成もサポート
-
4
「AIによる権利侵害」に出版・アニメ制作会社など集う国内団体が声明 「看過できない問題」
-
5
「Mythos級モデル」一般提供、数週間以内に 米Anthropic「Opus 4.8」リリース
-
6
OpenAIが生命科学推論AI「GPT-Rosalind」をバイオディフェンスに開放 デュアルユースリスクに懸念も
-
7
ローカルLLMは本当に手元で動くのか? ハードウェアとモデルの現実的な選び方【2026年春】
-
8
「Google AI Pro」ユーザーはYouTube広告ほぼ非表示 「Premium Lite」無料付与
-
9
NEC、日立、富士通が“Anthropic協業”でそろい踏み 狙いは? 【3社の幹部コメントまとめ】
-
10
「Google Antigravity 2.0と戯れながら感じたこと」と「LLM Wikiを実践して『ロケスマペディア』を作ってみた」
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR