バイドゥは6月14日、日本語入力アプリ「Simeji」のAndroid版で、AI技術を活用した音声入力機能を提供した。iOS版は7月に提供する予定。
Simejiのキーボードでマイクアイコンをタップして音声で話すと、その文字が入力される。Simejiならではの特徴として、文章の中に句読点を自動で配置するほか、入力した文字に合った顔文字を予測してくれる。
14日の発表会では、Simejiの開発者である、バイドゥ プロダクト事業部 部長の矢野りん氏が、実際に音声で入力するデモを実施。「むかってまーす ぶーん」と入力すると、「向かってまーす((((((((((っ・ω・)っ 」と顔文字込みで入力された。顔文字は「ぶーん」のように話した言葉から変換してくれるほか、「眠い」と入力するとその後の変換候補に「(´-ω-`)))コックリコックリ。。」が出るなど、主に形容詞を入力した後に、それに合った顔文字を連携予測してくれる。
句読点は「AI技術を活用し、ちょうどいいところに入るようにした」と矢野氏。AIで句読点を入れる機能は「他の音声入力にはない」と胸を張る。一方で顔文字の予測変換は、通常のSimejiのアルゴリズムを使っており、「顔文字変換にAI技術を応用できるかは研究を進めている」(矢野氏)とのこと。AI技術が顔文字にも適用されれば、通常の入力では現れない、より文脈に即した顔文字が自動で変換できるという。また絵文字の予測変換にも対応しているが、「音声認識で入力できるのは数100」(矢野氏)とのことで、通常の入力時よりは少ない。
デモでは他に「夏休み一ヶ月もあったし沖縄行ってて勉強する暇ないし、サーフィンとかつきあわされるから結構ハードでさ」(入力された文章の原文ママ)といった比較的長い文章を矢野氏が早口でまくし立てても、上記のように正しく入力された。一方、「ガチ無理ゲー」は「ガチ無理で」「勝ちをリレー」「家事無理ゲー」などと誤変換されてしまい、ネットスラングはちょっと苦手のようだ。ただ、Simejiの音声入力は使うほどに学習し、認識精度は向上するため、何度も同じ間違いをするといったことは減っていくはずだ。
音声認識は、中国バイドゥが中国語で培ったAI技術を日本語に応用することで実現している。バイドゥ 音声認識技術アーキテクトのリー・チャオ氏は、同形異音語(「明日」を「あした」「あす」「みょうにち」と読むなど、同じ表記で異なる読みを持つ言葉)、固有名詞の多さ、句読点の位置をどうするかが、日本語の大きな課題だったという。
そこで、アノテーション(関連情報を注釈として付与すること)を強化し、長音(長く伸ばして発音する音)と短音、平仮名と片仮名を区別させることで、同形異音語も正しく認識できるようになったという。ちなみに(「校歌」と「効果」など)同じ読みで異なる表記の同音異義語も、文脈に即して変換できるとのこと。
さらに、中国語の音声認識で活用したディープニューラルネットワークを日本語でも採用し、転移学習をさせることで、日本語の認識率は90%にまで上がったとリー氏は説明する。
固有名詞の変換精度を試すべく、「アイティメディアの田中です」と発話したところ、最初は「アイティメディアの田中」と正しく入力できたが、2回目は「ITメディアの田中」と表記が揺れてしまった。また「斎藤」「齋藤」など、同じ読みで複数の漢字がある固有名詞はさすがに難しいため、最も使われていると判断した漢字が入力されるとのこと。
日本語の音声認識は、当初は標準語のみが対応しており、方言は対応していないものの、リー氏によると、方言も順次対応していく予定はあるとのこと。ちなみに中国語の音声認識は方言もサポートしている。
バイドゥのCharles Zhang社長は、「2017年は、バイドゥと(グループ会社の)popInにとってAI元年になる」と話す。2017年1月31日には、バイドゥの画像認識を活用したレコメンドエンジンを発表した(これにより、画像から記事をレコメンドできる)。今回のSimejiの音声入力は、AIを活用したサービスの第2弾となる。ここで終わらず、「第3弾、第4弾と続けていく予定」(同氏)とAIを使ったサービスの拡張に意欲を見せる。
バイドゥは「過去5〜6年で人工知能の分野で莫大な投資をしており」(リー氏)、AIのコア技術となる「Baidu Brain」を開発。Baidu Brainでは、「世界トップクラスのディープラーニングのアルゴリズム」(同氏)を持つというAIアルゴリズムや、「膨大なWebデータ、10数年分にわたる検索データ、100億以上の画像、動画とロケーションデータ」(同氏)を含むビッグデータが活用されている。
バイドゥの音声認識技術も、このBaidu Brainがベースになっている。中国では音声入力だけでなく、家庭向けIoTデバイスやアシスタントロボットにも、同社の音声認識技術が使われている。例えば上海では、ケンタッキーの店舗でアシスタントロボットが実際に接客をするという活用事例もある。日本では、こうしたSimeji以外での活用は「未定」(Zhang氏)だが、さらなる広がりにも期待したい。
Copyright © ITmedia, Inc. All Rights Reserved.