ITmedia NEWS >

ゲームのキャラと口げんかできる――“感情”を読み取る音声認識エンジン

» 2004年05月07日 17時07分 公開
[岡田有花,ITmedia]

 未来のゲーム機として米Sonyの研究者が先日明らかにした「Play Station 6」。目玉機能のひとつが「音声入力式コマンド」だ。声でコマンドを入力でき、コントローラーが不要になるというのが売りだが、記者は「声を出さないとゲームできないなんて、恥ずかしいじゃないか」とちょっと不安だった(関連記事参照)。

 とはいえ、これは10年先の技術。しばらくは実用化されまいとタカをくくっていたのだが、国内のベンチャー企業エイ・ジー・アイ(AGI)が同様の機能をすでに実用化しているというではないか。音声でコマンド入力できるばかりか、音声からユーザーの喜怒哀楽を読み取り、ユーザーの気分に合った的確なレスポンスを返すという。

 このエンジンをゲームに搭載すれば、キャラクターと感情のこもった会話もできてしまう。実際、同社が開発したPC用ソフト「けんかデモ」では、ユーザーの発言にこもった感情を読み取り、心理学に基づいたプログラムで巧みに応答をすることで、キャラクター(エージェント)と口げんかできる。実際に試してみた。

記者:こんにちはー

エージェント:なによ

記者:あの、初対面なのに偉そうなんですね

 しょっぱなから相手の勢いに圧倒され、丁寧語で話し掛けてしまった。この時点でもう負けが見え始めている。

エージェント:何そんなとぼけたこと言うの

記者:うわ、むかつく!

エージェント:バカにしないでよ、人をなんだと思ってるの!いつもいつも超むかつく

記者:あんたのほうがむかつくよ!

 がんばって優勢を取り返そうと声のトーンを上げる記者。よし、勝てるぞ!と思いきや……

エージェント:あたしにそんなこと言っていいわけ?バラすわよ、いいのね?お〜っほっほっほ!

記者:な、何をばらすの?

 突然の個人情報漏洩宣言にいきなりタジタジ。さっきまでの勢いが一挙にしぼんだところにエージェントが追い討ちをかける。

エージェント:うざい人ね!

記者:あ、あんたの方がうざいよ

エージェント:ほーんとサイテー!

記者:ごめんなさい……

 ……負けそうだ。

エージェント:ヘモグロビンとアドレナリン大量分泌しちゃったじゃない!

記者:む、難しい言葉をご存知ですね……ごめんなさい……

エージェント:なに言ってんのあんた、ほんと暇人だわねっ!

記者:すみません、暇人なんです。ほんっとごめんなさい

エージェント:人を何だと思ってたの?反省しなさいよ

 ここでエージェントは「バン!」とドアを閉めて去ってしまった。負けた……。生身の人間を相手にしているようで心からムカつき、最後には謝らされて落ち込んでしまった。

photo 初めはやや不機嫌な表情(左)。言葉を交わすにつれて怒り出したり、半泣きになったりと表情を変える

 この「けんかデモ」には、AGIの光吉俊二社長が開発した「感性制御技術」(Sensibility Technology=ST)が搭載されている。従来の音声認識技術と違い、言語そのものではなく、声のトーンやリズムを読み取ることで、入力された音声から怒りや喜び、悲しみといった感情を判断、適切な答えを返すことができる。

 従来の技術では、心を込めて言った「ごめんなさい」も口先だけで軽く言った「ごめんなさい」も同じ「ごめんなさい」でしかないが、このシステムなら早口で軽いトーンの「ごめんなさい」は、バカにしていると判断して怒った態度で接したり、ゆっくり丁寧に発音された「ごめんなさい」は、心からの謝辞だと理解して許したりする。感情は言葉自体からではなく、音声のリズムから読み取るため、言葉が変わっても対応できる。

 また従来の技術は、エンジンの認識精度を上げるために登録単語数を増やし続けてきた結果、単語数が増えれば増えるほど認識精度が落ちるというパラドックスに陥っていた。音声のトーンから感情を判断することで、登録単語数をある程度抑えても発言内容やその意図を理解して反応させることができる。

 「感情を通して物事を理解するのは、人間の脳の働きと同じ」と光吉社長は言う。「コギャルやモリオ君(「ギャル男」の進化系。顔に装飾を“盛る”ガングロ男子)達は、『キャー』『ワー』『モリモリー』と言うだけで意思疎通をしている。言葉はなくても、心が同期していれば、会話のリズムから感情や伝えたい内容は読みとれる」(光吉社長)

 言語は国によって、年代によって、方言によってバラバラだが、ベースにある感情は人類共通。現在は方言や言語によって複数のエンジンを使い分けているが、将来は各エンジンを共通化して、全人類が使える共通のエンジンを開発するつもりだ。「STを使って世界中の人々が言語に関わらずコミュニケーションできるようにしたい」(光吉社長)。

最も“人間らしい”インタフェースとしての音声

 STを取り入れたシステムもいくつか発売済みだ。エージェントとの雑談も楽しめる受付システムや、ユーザーの感情に合わせてキャラクターとの会話が楽しめる携帯電話用恋愛ゲーム(関連記事参照)、コミュニケーションロボット「ifbot」の会話エンジンなどに搭載されている。「STはまだ生まれたてで、コンピュータで言えば、50年前の真空管コンピュータの段階。これから飛躍的に進化する」(光吉社長)。AGIは3月から、STの研究を日本SGIと共同で始めた。SGIのマーケティング力や人脈を利用して研究・実用化をさらに進める。

 ゲームなどアミューズメント分野への応用のほか、TVドラマ「ナイトライダー」に登場する乗用車「キット」ようにカーナビに組み入れて運転手と会話できるエージェントシステムや、主婦と会話し、声の調子や会話内容によって調理法を変えられる電子レンジなど家電製品への搭載も視野に入れて開発を進める。

 「音声は、キーボードやマウスと違って、誰もがはじめから使い方を知っている最も“人間らしい”インタフェース」(日本SGI新規事業推進担当統括・大塚寛シニアマネージャー)。マウスやキーボードに代わって、誰でも簡単にコンピュータを制御できる新しいヒューマンインタフェースとして、両社はSTを世界に提案してゆく。

もともと彫刻家だった光吉社長。「心理学と工学を結びつけて人間に最も適したインタフェースを作るという作業は、右脳と左脳を結びつけて作品を作り出す芸術家にしかできないんです」

Copyright © ITmedia, Inc. All Rights Reserved.