音声認識と拡張現実がモバイルアプリの主戦場になる理由モバイルアプリ開発の最前線(後編)

モバイルアプリに限らず、音声認識や拡張現実の重要性は高まっていく。それはなぜかのか。開発者はどの技術に注目すべきか。今後のために何をすべきなのか。

» 2018年04月19日 10時00分 公開
[Rob BamforthComputer Weekly]
Computer Weekly

 前編(Computer Weekly日本語版 4月4日号掲載)では、多様化するサイズやフォームファクターに対応するための開発ツールたちを紹介した。

 後編では、音声や拡張現実への対応について検討する。

Computer Weekly日本語版 4月18日号無料ダウンロード

本記事は、プレミアムコンテンツ「Computer Weekly日本語版 4月18日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。

なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。

ボタンボタン

「話し相手」になるモバイル端末

 音声認識はSFで長く取り上げられてきたテーマで、1980年代初頭から何らかの形で存在している。そしてその人気は昨今、インターネットに接続されるスマートスピーカーによって急成長した。進化を続けるこの音声ユーザーインタフェースは、Amazonが「Alexa」で必要としているだけではない。主なテクノロジー企業も市場でチャンスをつかもうと準備を進めている。「Siri」「Googleアシスタント」(同社の「Google Now」と似ているがより人工知能要素が強い)、Microsoftの「Cortana」、Samsungの「Bixby」など、さまざまなパーソナルアシスタントが登場した。また、IBMの自然言語人工知能(AI)プラットフォーム「Watson」もその1つだ。

 これらのパーソナルアシスタントのモデルは全て、「スキル」と音声コマンドをリンクすることに基づいている。「スキル」とは何らかの操作を指し、典型的なAI対応のバックエンドによって結果として実行される。つまり、構築するエコシステムには音声認識技術とAIプラットフォームだけでなく、この「スキル」も含まれる。

 Siriはパーソナルアシスタントの先駆けの1つだが、Appleは他機器への拡張に慎重で、まだ閉ざされたシステムと見なされている。Microsoftは、自社の開発者遺産、非常に多岐にわたる開発製品(「Microsoft Azure」でクラウドネイティブなアプリケーションをサポートする「Cortana Intelligence Suite」など)を強みにしてパーソナルアシスタント市場に切り込んでいる。一方Googleはあの手この手のアプローチを取ってはいるが「スキル」の量の点で遅れている。そしてBixbyはSamsung製端末のサブセットでしか機能しない。

 最も先を進んでいるのがAmazonだ。Alexaで市場の波を取り込んでいるだけでなく、スキルの強力なエコシステムを作り出している。同社はこれを「Alexa Skills Kit」でサポートする。Alexa Skills KitはセルフサービスのAPI、ツール、ドキュメント、コードサンプルをまとめたものだ。

 これが重要なのは、他のプラットフォーム戦争と同じように、強力なエコシステムとサポートが不可欠になるためだ。開発者はどのプラットフォームが成功を収めるかに賭けることになる。そのため開発者が求めるのはツール、テンプレート、安定したAPIだけではない。信頼できるユースケースに対して市場性のあるソリューションを構築するための、適切なレベルのビジネスサポートも欠かせない。

 音声対応のコマンドとコントロールを扱っているのは大規模ベンダーだけではない。アイルランドの新興企業Voysisは、企業が音声入力を自社の製品、データ、ブランドに合わせて調整できるようにする独自の手法を開発している。他にもこの分野の新興企業にはConvessa、Smartly、Snipsなどがある。だが新興企業のMindMeldが最終的に落ち着いた場所(Cisco Systemsによる買収)を見ると、この分野は急速に成熟を遂げ、統合へと進んでいることが分かる。

 機器がウェアラブル化したり自宅や職場の棚の背後に姿を消したりしていくたびに、音声コマンドの重要性は増していく。1970年代のSFで描かれたレベルに達することは決してないかもしれないが、音声駆動の「スキル」を設計に組み込む最適な方法を、製品とアプリケーションの開発者が知っておくのは非常に有益だろう。

拡張現実

 音声と並んで視覚の強化も見られる。特にスマートフォン、ゴーグル、眼鏡を対象とした開発が進んでいる。没入型スクリーン技術の最近の進化は、デジタル情報で何をすべきかという考え方に変化をもたらしている。結局、データを常に1つの長方形の画像で表示しなければならない理由はなくなっている。「Google Glass」の再開発、「Microsoft HoloLens」、エプソンの「MOVERIO」は、スマートグラスが新しく興味深い段階に移っていることを示している。

 現在、拡張現実(AR)ツールは幾つも存在しており、その数は増え続ける一方だ。モバイル機器の機能、カメラ、センサーがより高度になるにつれ、現実世界と仮想世界をつないで重ね合わせる方法は進化していく。

 エンドポイント端末へのコンピューティング面での影響を最小限に抑える、よりシンプルなアプローチは、現実世界にマーカーを適用するものだ。マーカーは、認識または識別されるオブジェクトになる。もしくは、端末のカメラを使って認識しやすくなるよう環境に適用される。例としては、ARアプリの「Zappar」で使われる一意の円形のカードトークンが挙げられる。

 「Simultaneous Localisation And Mapping」(SLAM)などの技術は、仮想要素を適用する現実のモデルや地図を、機器が独自に構築する。こうした技術が進化するにつれ、マーカーの必要性は少なくなる。モバイル機器にセンサー、GPS、コンパス、加速度計が組み込まれることが増えている。また、それらがドローンに組み込まれることも、「Light Imaging Detection And Ranging」(LIDAR)などの自動運転車に使われる技術に組み込まれることもある。これによりマーカー不要のアプローチが実現されようとしているが、演算処理能力の利用は増える。

 これをクラウドベースのリソースと関連付けるのは非常に有益だ。現在、WikitudeのオールインワンAR SDKなどのツールが人気を集めている。オブジェクトと画像の認識を、インスタント検出とクラウドサービスにインテリジェントに結合するのがこうしたツールだ。企業や消費者を対象とした信頼できるARアプリケーションを試したい、または提供したいという開発者には、さまざまな選択肢が用意されている。

実験のとき

 あらゆる開発者と経理担当者にとって重要なのは、どのイノベーションが変化をもたらすかだ。

 こうした技術の多くは、まだユースケースに最適な形で落とし込む方法が模索され始めたばかりだ。つまり、今後かなりの量の実験をこなさなくてはならない。組織が現在アジャイルやDevOpsのアプローチを採用しているかどうかにかかわらず、新種のモバイル端末やエッジ機器に関していえばこのアプローチに大きなメリットがある。

 まずは具体的な目的を胸に、小規模から始めよう。試行を重ね、ユーザーに素早く導入する。そして最も重要なのが、ユーザーからのフィードバックを集め、それを組み込み、そのフィードバックを基に再構築することだ。選択肢は多数あるため、自分にとって適切なものを前もって判断するのは難しい。だが、ユーザーや顧客をできるだけ理解しようとするのは常に有益な方策だ。

別冊Computer Weekly “なんちゃってOffice”よりもOffice 365も公開中!

Microsoft Officeの代替製品は数あれど、やはりMicrosoft Office の地位は揺るがない。そして、Office 365はOffice 20xxの単なるクラウド版以上の価値を提供する。


Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ