ITmedia NEWS > 製品動向 >
ITmedia AI+ AI活用のいまが分かる

LINE「Clova」開発者が語る「日本語入力の難しさ」 次は「話者の認識」目指す

» 2017年09月28日 18時45分 公開
[太田智美ITmedia]

 「私たちが考えるAI(人工知能)は、『機械学習』のことではない。人々の生活に溶け込み、サポートするバーチャルアシスタント(Virtual Assistant in our life)のことをAIと呼んでいる。機械学習はあくまでも私たちが定義する“AI”を実現するための要素の1つ」――9月28日に開催されたエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2017」に登壇したLINEの橋本泰一さんが、LINEのスマートスピーカー「WAVE」に搭載するAIプラットフォーム「Clova」の技術について語った。


LINE「Clova」の技術 LINEの橋本泰一さん。Clovaは「Cloud-based virtual assistant」から名付けられたという

 Clovaを搭載したWAVEは、2017年秋の一般モデル販売に先立ち、同年夏に「先行体験版」が発売。出荷予定がずれ込んだものの、既に購入者の手元に届いている。

 WAVEはWi-Fiを通じてClovaに接続するが、その技術は次のようになっているという。

 まず、Clovaは「クライアント」「ブレイン」「スキル」「プラットフォーム」という構成要素を持つ。「クライアント」は、WAVEをはじめとするユーザーの入力を受け取り、サービスを提供する部分。「ブレイン」はClovaにおいて最も重要な部分で、音声認識によるテキスト化や言語理解、出力するためのテキストの音声合成を行う。「スキル」は、音楽を再生したり、ニュースを読み上げたりといったスマートフォンでいうところのアプリケーションに当たる部分。そしてこれらの要素を横断的につなぎ、ユーザー情報の保存や認証などを行う「プラットフォーム」がある。

 さらに、これら4つのコンポーネントを接続する2つの仕組みが存在する。「CIC」(Clova Interface Connect)と「CEK」(Clova Extention Kit)だ。


LINE「Clova」の技術 スマートスピーカー「WAVE」に搭載するAIプラットフォーム「Clova」の技術

 CICは、Clovaのクライアントとプラットフォームをつなぐためのインタフェース。SDKとAPIで構成され、CICによって音声認識や言語理解、音声合成などの機能が利用できるようになる。具体的には、まずクライアントがCICを利用してClovaへ接続。クライアントからきたユーザーの音声データをClovaへ送信する。その後、Clovaが持つサービスの結果をクライアントが受け取る。

 CEKは、さまざまなサービスをプラットフォームに提供するためのインタフェース。例えば、CEKに準じてAPIを提供すれば、ニュースや音楽配信といった既存のサービスをClova上で展開することが可能。WAVEなどを通じてユーザーに提供できる。

 全体の処理の流れとしては、WAVEがCICに接続すると、「ブレイン」の部分にあたる音声認識や言語理解などの機能を実行。ここで処理した結果を、CEKを通じてユーザーに提供する。


LINE「Clova」の技術 全体図

「秋に合う音楽をかけて」という問いかけの裏側で起きていること

 ここで、実際の例を基に説明する。ユーザーが「秋に合う音楽をかけて」とClovaに呼びかけると、WAVEはCICに接続。音声データはCICを通じてリアルタイムにテキスト変換され、ユーザーがどのような意図でそのような発話をしたのかが解析される。

 この場合、Clovaは「ユーザーの意図は、音楽をかけてほしいということだ」と認識。スキルの中から「音楽をかける」を選択し、音楽を決める。決定した音楽は、CEKからCICを通じて配信され、WAVEから音楽が流れる。


LINE「Clova」の技術 Clovaが「ユーザーの意図は、音楽をかけてほしいということだ」と認識

LINE「Clova」の技術 文章を生成して音声合成を行い、CICを通じて再生される。

 その後、ユーザーが「この音楽は何?」と問いかけると、Clovaは曲のタイトルや歌手名などのメタ情報を提供。文章を生成して音声合成を行い、CICを通じて再生される。

「日本語の音声入力」という難しさ

 開発にあたり難しかったと話すのは、「音声認識」「言語理解」「音声合成」の部分。ここでは、他の言語に見られない3つの課題を解決しなければならなかったという。

 まず、音声認識について。人による固有表現や、ユーザーがどのような状態でしゃべっていても音声をキャッチしなければならないといった問題のほか、日本人は「T」「K」「H」の音をあまり発音しないため、その部分の認識強化をしなければならなかったという。

 言語理解では、同音異義語の問題がある。例えば、同じ「かけて」という音でも、「掛けて」「書けて」「賭けて」など、異なる意味を持つ。「『掃除機をかけて』と言ったときに、掃除デバイスと連携すればいいのか、それとも掃除機の音を流せばいいのかといった理解をさせなければならない」と自然言語処理を担当する開発者は話す。


LINE「Clova」の技術

 音声合成では、漢字や英語などの読み間違いを防がなければならない。これは、「晴一時雨」を「セイ イチジ ウ」と読んだり、「SEKAI NO OWARI」を「エス イー ケイ エー……」と読むのを防ぐといった具合だ。

 これらは、それぞれの技術課題をお互いカバーする形で開発しているという。また、スマートスピーカーのようなデバイスに話しかけるには「ユーザーのフレンドリーな気持ちが大事」ということから、ソフト面のみならずハード面からのアプローチも考えている。今冬、LINEのキャラクターをモチーフにしたClova搭載スマートスピーカー「CHAMP」が発売予定だが、キャラクターを採用することで「フレンドリーな気持ち」をユーザーに持たせる狙いがあるという。


LINE「Clova」の技術 「LINE DEVELOPER DAY 2017」でお披露目されたClova搭載スマートスピーカー「CHAMP」

次の展開は「話者を認識」すること

 今後の「Clova」の展開として力を入れているのは、「話者認識」「発話以外の理解」「Gateboxとのコラボレーション」「開発環境の提供」の4つ。話者認識では、初めて使う人には「はじめまして」、使い慣れたユーザーには「こんにちは」というように、音声から話者を認識して対応できるようにするのが目的だ。発話以外の理解は、時間帯やユーザーの行動履歴を分析する。例えば、朝なら「おはようございます」、夜であれば「こんばんは」、クリスマスには「メリークリスマス!」などのあいさつができるようにしたいという。18年にはエンジニアがClovaやWAVEを使ってアプリ開発ができるよう、開発環境の提供を目指すとしている。

 好きなキャラクターと一緒に暮らせる装置「Gatebox」とのコラボレーションについては、運営ベンチャー企業を買収しLINEが連結子会社化したことでも知られる(関連記事)。


 Clovaの言語理解技術開発を統括する橋本泰一さんは次のように話す。「われわれが今、最も重要視しているのは速いスピードで『GROWTH』させていくこと。Clovaを1年という短い期間で開発できたのは、LINEの前身であるNHN JapanやライブドアにWeb検索・クローリングといった技術財産があり、それらを集結させたから」(橋本さん)

太田智美

Copyright © ITmedia, Inc. All Rights Reserved.