AIによる音声入力機能を「Simeji」に提供 顔文字をレコメンド、句読点も自動で

» 2017年06月14日 20時42分 公開
[田中聡ITmedia]

 バイドゥは6月14日、日本語入力アプリ「Simeji」のAndroid版で、AI技術を活用した音声入力機能を提供した。iOS版は7月に提供する予定。

 Simejiのキーボードでマイクアイコンをタップして音声で話すと、その文字が入力される。Simejiならではの特徴として、文章の中に句読点を自動で配置するほか、入力した文字に合った顔文字を予測してくれる。

Simeji キーボードのマイクアイコンをタップすると、音声入力が可能になる
Simeji 「野外ライブ超久々」と入力
Simeji その後、関連する顔文字を提案する
Simeji 若者が話すカジュアルな言葉も含め、フランクな言葉も快適に入力できるようチューニングした
Simeji 音声で顔文字を連携予測(レコメンド)するのは初だという

早口、長文も高確率で正確に入力してくれる

 14日の発表会では、Simejiの開発者である、バイドゥ プロダクト事業部 部長の矢野りん氏が、実際に音声で入力するデモを実施。「むかってまーす ぶーん」と入力すると、「向かってまーす((((((((((っ・ω・)っ 」と顔文字込みで入力された。顔文字は「ぶーん」のように話した言葉から変換してくれるほか、「眠い」と入力するとその後の変換候補に「(´-ω-`)))コックリコックリ。。」が出るなど、主に形容詞を入力した後に、それに合った顔文字を連携予測してくれる。

Simeji
Simeji 矢野氏による音声入力デモ。「無理ゲー」以外はほぼ正確に入力できている
Simeji 「眠い」と入力すると、眠そうな顔文字が次の候補に出てくる

 句読点は「AI技術を活用し、ちょうどいいところに入るようにした」と矢野氏。AIで句読点を入れる機能は「他の音声入力にはない」と胸を張る。一方で顔文字の予測変換は、通常のSimejiのアルゴリズムを使っており、「顔文字変換にAI技術を応用できるかは研究を進めている」(矢野氏)とのこと。AI技術が顔文字にも適用されれば、通常の入力では現れない、より文脈に即した顔文字が自動で変換できるという。また絵文字の予測変換にも対応しているが、「音声認識で入力できるのは数100」(矢野氏)とのことで、通常の入力時よりは少ない。

Simeji 矢野りん氏

 デモでは他に「夏休み一ヶ月もあったし沖縄行ってて勉強する暇ないし、サーフィンとかつきあわされるから結構ハードでさ」(入力された文章の原文ママ)といった比較的長い文章を矢野氏が早口でまくし立てても、上記のように正しく入力された。一方、「ガチ無理ゲー」は「ガチ無理で」「勝ちをリレー」「家事無理ゲー」などと誤変換されてしまい、ネットスラングはちょっと苦手のようだ。ただ、Simejiの音声入力は使うほどに学習し、認識精度は向上するため、何度も同じ間違いをするといったことは減っていくはずだ。

同形異音語や句読点が日本語の課題だった

 音声認識は、中国バイドゥが中国語で培ったAI技術を日本語に応用することで実現している。バイドゥ 音声認識技術アーキテクトのリー・チャオ氏は、同形異音語(「明日」を「あした」「あす」「みょうにち」と読むなど、同じ表記で異なる読みを持つ言葉)、固有名詞の多さ、句読点の位置をどうするかが、日本語の大きな課題だったという。

 そこで、アノテーション(関連情報を注釈として付与すること)を強化し、長音(長く伸ばして発音する音)と短音、平仮名と片仮名を区別させることで、同形異音語も正しく認識できるようになったという。ちなみに(「校歌」と「効果」など)同じ読みで異なる表記の同音異義語も、文脈に即して変換できるとのこと。

 さらに、中国語の音声認識で活用したディープニューラルネットワークを日本語でも採用し、転移学習をさせることで、日本語の認識率は90%にまで上がったとリー氏は説明する。

Simeji リー・チャオ氏

 固有名詞の変換精度を試すべく、「アイティメディアの田中です」と発話したところ、最初は「アイティメディアの田中」と正しく入力できたが、2回目は「ITメディアの田中」と表記が揺れてしまった。また「斎藤」「齋藤」など、同じ読みで複数の漢字がある固有名詞はさすがに難しいため、最も使われていると判断した漢字が入力されるとのこと。

Simeji 筆者も実際に試してみたが、この通り、正確に入力できた。「来ています」の後に「。」があれば、100点だったが
Simeji アイティメディアは「ITメディア」と変換されたことも。社名やブランド名などの固有名詞は確かに難しい
Simeji 同じような発音の言葉(上)、雑音のある場所(中)、他の人が話している環境(下)でも、正確に変換するデモを実施

 日本語の音声認識は、当初は標準語のみが対応しており、方言は対応していないものの、リー氏によると、方言も順次対応していく予定はあるとのこと。ちなみに中国語の音声認識は方言もサポートしている。

中国ではIoTデバイスにも音声認識技術を活用

 バイドゥのCharles Zhang社長は、「2017年は、バイドゥと(グループ会社の)popInにとってAI元年になる」と話す。2017年1月31日には、バイドゥの画像認識を活用したレコメンドエンジンを発表した(これにより、画像から記事をレコメンドできる)。今回のSimejiの音声入力は、AIを活用したサービスの第2弾となる。ここで終わらず、「第3弾、第4弾と続けていく予定」(同氏)とAIを使ったサービスの拡張に意欲を見せる。

Simeji Charles Zhang社長

 バイドゥは「過去5〜6年で人工知能の分野で莫大な投資をしており」(リー氏)、AIのコア技術となる「Baidu Brain」を開発。Baidu Brainでは、「世界トップクラスのディープラーニングのアルゴリズム」(同氏)を持つというAIアルゴリズムや、「膨大なWebデータ、10数年分にわたる検索データ、100億以上の画像、動画とロケーションデータ」(同氏)を含むビッグデータが活用されている。

Simeji バイドゥが開発するAIのコア技術である「Baidu Brain」
Simeji さまざまなデータが機械学習に活用されている

 バイドゥの音声認識技術も、このBaidu Brainがベースになっている。中国では音声入力だけでなく、家庭向けIoTデバイスやアシスタントロボットにも、同社の音声認識技術が使われている。例えば上海では、ケンタッキーの店舗でアシスタントロボットが実際に接客をするという活用事例もある。日本では、こうしたSimeji以外での活用は「未定」(Zhang氏)だが、さらなる広がりにも期待したい。

Simeji 音声入力にとどまらない、さまざまなソリューションの提供も視野に入れており、実際に中国で展開されている
Simeji
Simeji 上海のケンタッキー店舗では、バイドゥの音声認識技術を搭載したロボットが接客している(写真はそのイメージ映像の一部)

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2024年03月29日 更新
最新トピックスPR

過去記事カレンダー

2024年