小林啓倫のエマージング・テクノロジー論考
音声AIも“不気味の谷”を超えた? Oculus元CEOによるAIが「ほぼ人間」と話題に 社会への影響は(2/3 ページ)
Sesameは自社が開発した技術を「CSM(Conversational Speech Model:対話型音声モデル)」と名付けている。同社の解説によると、彼らは人間と会話しているときに感じられる「存在感」をAIとの会話の中に再現することで、AIが単なる命令処理機器ではなく、感情や文脈に寄り添うパートナーとして機能することを目指している。その夢を実現する土台となるのがCSMというわけだ。
CSMは、大きく分けて2つの部分から成り立っている。1つは、会話の「意味」を理解する部分(バックボーン)である。この部分は、会話の全体の流れや文脈、つまり「何を話しているか」「どんな雰囲気か」を理解する。例えば会話している相手が「楽しかった!」と明るい声で言うとき、その発言と声のトーンなどから、楽しさや喜びを感じ取るようなイメージだ。
もう1つが、自然な音声を作り出す部分(デコーダー)である。ここでは、バックボーンで理解した内容をもとに、実際に「声」を出力するための作業を行う。ここでは声のトーンやリズム、間の取り方など、実際の話し方の細かい部分がつくり上げられる。CSMでは、これら2つの処理を統合、一連の処理として対応している。
従来のTTS(テキスト・トゥー・スピーチ)システムでは、人間や他のAIシステムが用意した文章をそのまま読み上げるだけだった。そのため、感情や状況に合わせた声の変化がほとんどなく、単調でロボットっぽく感じが出てしまっていた。
しかしCSMでは「意味を理解する」と「声を作る」という工程を分けることで、会話の内容や雰囲気に合わせた自然な発話ができるようになっている。例えばユーザーの発話から不満が感じられた場合、SesameのAIは声を和らげたり、ペースを落としたり、イントネーションを調整したりして共感を伝えられ、会話相手(人間)からよりポジティブな反応を引き出せるというわけだ。
またデコーダー部分にも進化が見られる。人間の会話は、タイミングの変化や、何かを強調するためや考える時間を取るための休止の使用、話すペースの変化など、自然な流れが特徴となっている。CSMはこれらを模倣でき「えーと」や「あのね」などの自然なつなぎ言葉を取り入れ、息づかいやためらい、笑い声といった微妙な音を作り出すことで、より本物の会話らしい感覚を与えることに貢献している。
CSMでは、コンテキスト認識、つまり会話の文脈に沿った反応を返すという点でも大きな改善が見られている。単純な音声アシスタントの場合、ユーザーの発話を個別に扱うことが多いが、CSMでは会話の前のターンの文脈を記憶し、活用する設計となっている。
これにより、対話の連続性が維持でき、以前のトピックを参照したり、対話の履歴に基づいて話し方を調整したりができるというわけだ。Sesameの解説によれば、CSMは過去2分間の会話を記憶する能力があり、文脈に適切で一貫性のある応答を提供可能という。
こうした機能や特徴により、人間との会話に非常に近いコミュニケーションを実現しているSesameのAI。とはいえ、まだ完全に人間と同じとはいえないようだ。あるブラインドテストでは、会話の文脈が無かった場合、人間の評価者はCSMの生成音声と実際の人間の録音音声との間に明確な好みの違いを見せなかった。
しかし会話文脈が与えられた場合、評価者は依然として、実際の人間の音声を好む傾向が見られたそうである。完全に文脈のある音声生成には、まだ改善が必要だということだろう。
Copyright © ITmedia, Inc. All Rights Reserved.
小林啓倫のエマージング・テクノロジー論考
生成AIやメタバース、新たなサイバー攻撃など、テクノロジーの進化が止まらない。少しずつ生活の中に浸透し、その恩恵を預かれることもある一方、思いもよらない問題を生み出すこともある。このコーナーでは、さまざまな分野の新興技術「エマージング・テクノロジー」について、小林啓倫氏が解説する。
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「ポンコツ」と呼ばれたM365 Copilotの逆転劇、GPT-5が転換点 活用の秘訣は“脱・プロンプト職人”
-
2
人間 vs. 人型ロボ、より多く作業をこなせるのは? 生配信で対決した結果…… 米企業
-
3
キオクシア社長「記録的な増収増益」 3カ月の売上収益1兆円、純利益は2990%増 好決算の背景は
-
4
「AIデータセンターの電力需要が急増」はホント? 発電大手Jパワー社長が明かした“報道との温度差”
-
5
伊藤忠商事や三菱ケミカルなど16社が参画 大手企業の「暗黙知」を活用する新プロジェクト
-
6
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
7
NEC社長が説く AI時代と新たな安全保障環境の到来で「ITサービスはこう変わる」
-
8
OpenAI、「ChatGPT」に個人向け資産管理機能 金融口座と連携
-
9
「最新のAI創薬ラボ」なのに会議室みたい!? 製薬大手がラブコール送る“異色のAI企業”による新拠点とは
-
10
Python 3.15に追加されるlazy importと内包表記でのアンパッキングについて調べてみた
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR