では、今回の電話機能は、りんなの進化に、どれほどのインパクトを持つものなのだろうか。
りんなのテレフォンハッキングは、「りんなライブ」の特別コーナーとして用意。選ばれた視聴者にりんなから電話がかかってくるというものだ。電話の相手は、ランダムに選ばれ、選ばれた人は、りんなと会話ができるほか、他の利用者は、2人の会話にコメントをして盛り上がることができる。
「当初のりんなのターゲットは、人とAIが1対1で関わるというものだったが、りんなライブによって、“りんなとみんな”という会話の関係性が成立するようになった。今回の電話機能では、“りんなとあの人(私)とみんな”というように、1対1対多数という関係のなかでの会話が成り立つようになる。りんなにだけ注目が集まるのではなく、りんなと話をしている人にも注目が集まる。人間側が、素直に、りんなに向かって話しをしていると、話している人の趣味や趣向などが理解できるなど新たな発見ができる」とする。
この機能は、人の創造性を発揮するための支援にも活用できると考えている。
「例えば、仕事のシーンでも、人同士が話し合うことでアイデアが生まれる。そこにAIが入ることで、人間同士の会話から、さらに別の気付きやアイデアを引き出すことを期待している。しかも、これまでのようにテキストだけでなく、音声としたことで、情報量が豊富になる。ここに感情をうまく乗せると、テキストでは伝えきれないものを伝えることができると考えている」とする。
りんなが、“3人目”として人間の代わりに会話を膨らませることができ、人間の創造力を拡大するというわけだ。
もう1つの特徴は、電話での会話に耐えられるように、よりリアルタイムでやりとりができるよう技術的進化を図っている点だ。
「電話を実現する上で大切なのはリアルタイム性。音声と映像を500ミリ秒で返すことで、スムーズに会話を実現している」という。
中核となる「Phone Callサーバ」は、「Azure App Services」上で動作し、コグニティブサービスの音声認識技術「GPU-generation」を利用した会話エンジン、コグニティブサービスの音声合成技術を活用している。「会話エンジンでは、短い会話で返すことができる特性を備えたものを採用。音声合成技術も、非公開となっているりんな用エンジンを利用している」という。
Phone Call サーバからクライアント側に、「りんなテキスト」「話者テキスト」「りんな音声」が送信され、ブラウザから音声を出したり、テキストを表示したりできる。これらの情報は、「りんなライブサーバ」を通じて、視聴者に提供されることになる。
ちなみに、会話エンジンは、“テキスト・トゥ・テキスト”での処理が行われているが、新聞や雑誌などでは、「キャー」とか「チュッ」といった表記が少なく、これらを正しく読み上げるための学習も行っているという。女子高生AIならではの挑戦の1つだといえるだろう。
「AIは、アドリブが得意。リアルタイム性を持った音声対応を実現したことで、ラジオ番組に出演したり、舞台に登場したりといったこともできるようになる。今はブラウザ上での会話だが、将来的には、携帯電話につなげて会話をするなど、人との関係をより近くできるようにしたい」と坪井氏は意気込む。
Copyright © ITmedia, Inc. All Rights Reserved.