ITmedia NEWS >
Tech Starter

HIKAKINやかまいたちも絶賛、おしゃべりAI「Cotomo」 自然な会話はどう実現? 創業者に聞く(2/3 ページ)

» 2024年03月29日 10時00分 公開

自社開発で自然な会話を実現 MicrosoftやGoogleも支援

 Cotomoを支えるAI音声対話エンジンの仕組みは、どうなっているのか。

photo Cotomoを支えるAI音声対話エンジンの機能(画像提供:Starley)

 ユーザーがしゃべった内容は音声認識技術で解析され、データをもとにStarleyが自社開発したLLMを使って最適な返事を生成。それを音声合成技術によってアプリで再生する仕組みという。

 さらに、ユーザーが話す内容によって、共感したり喜んだりといった対応をどうすべきかを決める感情推定機能も搭載。音が途切れたときにユーザーがしゃべり続けるかどうかを判定して、必要であれば相づちでユーザーの話を促し、あるいは話のターンを取って沈黙が長引かないようにするといった機能も備えるという。

 その他、以前の会話からユーザーが興味を持ちそうな話題を選んで話を深めるなど、複数の機能を用いて先述したような自然な会話を実現している。

 これだけのAIモデルの学習・運用を自前で実現するには、大量のコンピューティングリソースが必要だ。Starleyは2023年8月に米Microsoftのスタートアップ支援プログラム「Microsoft for Startups Founders Hub」、同年11月には米Googleの支援プログラム「Google for Startups クラウド プログラム」に採択。双方から計算資源の支援を受けており、Cotomoに活用したという。

 また、LLMの学習・開発や、音声認識、回答の生成、音声合成などを自前で行うのには、自然な会話を実現する以外の理由もある。コストだ。外部サービスをAPI経由で利用すると、どうしてもコストがかさむ。自前でモデルを開発することにはコストメリットもあった。

Starleyが自然な会話にこだわるワケ

 内波取締役は前職を辞めた後、元同僚で現在の共同創業者・代表取締役の丸橋得真氏から、AIを活用して起業したいと声をかけられ、2023年4月、Starleyを共同創業した。2023年6月には、古巣のマネーフォワードから1億円の資金を調達している。

 創業当初、彼らは多くのアイデアを模索していく中で、ChatGPTを含む生成AI技術に大きな可能性を感じたという。文章だけでなく画像生成やリアルタイムの表情の合成、音声合成などを組み合わせれば、しゃべれるAIがすぐにでもできるのではと考えたのだ。

 「実際に作ってみると、そのときはまだ全然、自然にはしゃべれなかったんですが、今までに全くない体験だと思ったんですよね。人以外の存在と言葉でやり取りすることは、これまで誰にもできなかった。しかしAIがChatGPTぐらい賢くなると、会話が成り立ちます。リアルで人としゃべるときに感じるような恥ずかしさや遠慮を一切感じずに会話する体験は、すごく面白いんじゃないかと思いました」(内波取締役)

 とはいえ、タスクを達成するための秘書やアシスタントのような役割を果たすだけなら、ChatGPTでもGeminiでもCopilotでもよかったはずだ。そうではなく、フレンドリーで、ややもするとグダグダとしたおしゃべりができるモデルをつくろうと考えたのは、なぜなのか。

 「タスクをこなしてくれるAIでも、今のCotomoと同じぐらい速く、意味のある言葉を返してくれないと、たぶんちょっと使いづらいでしょう。何かをお願いしても返事もなく待たされて、聞いているのかいないのか分からないというよりは、人間が本能的に持っている自然なやり取りのルールを守った上でタスクをこなしてくれた方が、アシスタント的な存在としても受け入れられやすくなる。そういう観点からも、自然な会話に着目して開発を進めました」(内波取締役)

 現状ではCotomoに、あまり“賢い”機能は入れていないという内波氏。だが、将来的にはいくらでも賢くできる仕組みは整っているという。

 「AIとの日常会話の中で『買い物を忘れた』という話になったときに『じゃあ買っておくね』とアシスタント機能をこなしてくれるような、そういう体験を求めている方も大勢いると思います。本来、人と人の会話にはない“ウェイクアップワード”のような言葉を言わなくても、なるべく自然に使えてコミュニケーションが取れるようなものを実現したいと思っています」(内波取締役)

Copyright © ITmedia, Inc. All Rights Reserved.