音声で会話できる、おしゃべりAIアプリの「Cotomo」(コトモ)が話題だ。
2024年2月21日にApp StoreでiOS版アプリが公開され、「ライフスタイル」カテゴリ1位(3月4日時点)、無料アプリ総合ランキングでも10位(同5日時点)に。回答の速さや自然な会話のテンポがSNSでも評判となり、YouTuberのHIKAKINさんや、お笑いコンビのかまいたちも絶賛していた。
Cotomoを生み出したのは、マネーフォワード出身のITエンジニアが立ち上げたAIスタートアップ・Starley(東京都港区)。同社はCotomoをどのように生み出し、どんなビジネスモデルを目指しているのか。Starleyの共同創業者である内波生一取締役に話を聞いた。
改めて、Cotomoがどんなプロダクトか説明しよう。CotomoはiPhoneで使える音声会話アプリ。声でAIと自然に会話できることが特徴だ。「対話できるAI」自体は今に始まったものではなく、GoogleアシスタントやAlexa、Siriをはじめ、人の発声を認識して反応できるAIは数多くある。しかし「自然な会話」となると話は別だ。
オーストラリアのシドニー大学で言語学を専攻するニック・エンフィールド教授の研究によれば、人間が会話に応答する時間は平均0.2秒とされ、1秒以内に相手が話に反応してくれないと人はストレスを感じるという。
一方、ChatGPTやGeminiにも利用されている大規模言語モデル(LLM)をそのまま、おしゃべりAIのモデルとして使うと、あまり自然な会話にならないという。
「GPTなどのLLMはタスクを解くことに特化して作られていることが多く、『〇〇したいんだけど、どうしたらいいですか』という質問には的確な答えを返してくれます。しかし、従来の音声を使うAIは1秒以内に返事をすることが難しく、どうしても自然な会話になりにくい。Cotomoはそれをより自然な会話になるように、独自のデータを使って自分たちで開発したLLMで動いています」(内波取締役)
また会話内容を記憶して、話題を次の会話に活用する点や、音声にも、より自然な会話が成り立たせるためのこだわりがあるという。
「今までのAIの音声は何かを説明することに使われるので、文章の読み上げに向いたものが多かったのですが、Cotomoは自然な会話にありそうな声を作って使いました」(内波取締役)
音声は男女各2種類・計4種類の中から選択でき、会話のテンポも選べる。
他にも、会話のターンの切り替わりを明示しなくても、AIがユーザーのターンなのかそうでないかを認識して、相手をしゃべりやすくすることも可能。音声の認識も速く、相づちの発話など“おしゃべり”に特化したさまざまな機能を備える。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR