News 2001年9月4日 09:50 PM 更新

自然な会話を認識するCTIシステム――ジー・エフ

自然な話し方や早口でも認識できるCTIシステムが開発された。これまでのCTIシステムでは,不自然な会話のやりとりを強いられていたが,新システムでは普通の会話でチケットの予約などが行えるという。

 電話システム開発のジー・エフは9月4日,普通の会話のような自然な話し方や早口でも認識できるCTI(Computer Telephony Integration)システムを開発した。音声認識エンジンはアドバンスト・メディアの「AmiVoice for Telephony」のコア技術を使用している。これまでのCTIシステムでは単語単位で音声認識されていたのに対し,新システムでは連続した言葉(普通の会話)でも認識できるようにした。Windows NT/2000ベースのPCで制御するため,低コストで導入できるのも特徴だ。

 音声認識機能を使ったCTIシステムは,チケット予約や宅配システムの再配達でお世話になった人も多いだろう。ただ,その応対は,極めて機械的なものだった。

 現在の一般的な音声認識の流れを,チケット予約を例にしてみよう。

 「出発駅を言ってください」
 「東京」
 「トウキョウですね。到着駅を言ってください」
 「新大阪」
 「シンオオサカですね。ご希望の席は喫煙席か禁煙席か言ってください」

 ……現状の音声認識システムでは,ほとんどの場合,こんなやり取りが続く。

 これは,ユーザーにしてみると会話自体が不自然で,実にイライラするシステムだ。原因は,単語単位でしか音声認識ができないために,人間がコンピュータ(音声認識システム)に合わせなくてはいけないためだ。さらに,

 「えっと,禁煙席」
 「認識できません。もう一度言ってください」

など「あー」とか「えっと」といった意味のない言葉が入ると,とたんに認識できなくなる。さらに“なまり”といったイントネーションやアクセントの違いや早口など話す速度の変化などにも対応できなかった。

 それが,今回のシステムでは,

 「えっと,東京から新大阪まで2枚,あー,禁煙席にしてください」

というように,普通の会話スタイルで話す言葉をしっかりと認識し,

 「出発駅東京,到着駅新大阪,2枚,禁煙席ですね」

と応えてくれる。PCを使った音声認識システムながら,まるで人間が応対してくれるかのようだ。

 新システムでは,独自の雑音処理技術と電話回線に適した音響処理で,電話からの認識能力を高めた。認識結果はテキストデータで出力されるため,さまざまなアプリケーションと連携ができる。認識できる語彙数は数十万規模で,姓名や数字の認識率も高い。「雑音の多い携帯電話でも,ユーザーテストでは95%以上の認識率を示している。住所などを早口に一気に読み上げても認識できる」(同社)。


住所を一気に読み上げるデモも行われた。都道府県を省略しても,しっかり認識する

 この新システムの利用例としては,住所クレジットカード会社などの会員の住所変更登録やチケット販売,通信販売の注文受付,宅配便の在宅チェック,カタログ請求の受付など多岐にわたる。

 ジー・エフの仲吉昭治社長は「通販業界の例をとってみても,日中の時間帯は人間で対応できるが,夜までサポートするのは人件費の面からも難しい。一方,注文するユーザー側からすると,昼間は働いているため注文する時間帯は夜になってしまうケースが多い」と,このシステムが低コストでより多くの注文を取るための有効なツールであることを強調していた。同社の調べでも,24時間注文を受け付けている通販では,注文の40%が午後9時から翌朝9時までの夜間の時間帯だという。

 また,「インターネットを使って注文することのできない高齢者などには,電話など音声による注文システムは必要不可欠」(同社長)。


「音声認識システムは低コストでより多くの注文を取る有効な手段」と仲吉社長

 音声認識エンジン開発元のアドバンスト・メディアによると,今回のCTIシステムでの利用以外にも,キオスク端末や企業自動受付,電子カルテ,字幕作成,各種ビジネス/コンシューマ向けアプリケーションなどに同社の音声認識エンジンが応用できるという。

 新システムの価格(スタンドアロンタイプ)は,2回線までが400万円,4回線までが500万円,8回線までが700万円,16回線までが1200万円となっている。10月1日より販売する。

関連リンク
▼ ジー・エフ
▼ アドバンスト・メディア

[西坂真人, ITmedia]

Copyright © ITmedia, Inc. All Rights Reserved.