ITmedia NEWS > AI+ >
ITmedia AI+ AI活用のいまが分かる

スマートスピーカーから考える、「本当に賢い」とは何か小寺信良のIT大作戦(2/2 ページ)

» 2022年01月13日 10時13分 公開
[小寺信良ITmedia]
前のページへ 1|2       

AIへの期待値と実効値の落差

 Amazon Echoは、天気予報とアラームにしか使っていない人も多いはずだ。だがそれも、われわれの満足できるレベルでAIが使われているだろうか。実はこんなシンプルな機能でも穴だらけではないのか。

 例えば午後3時の30分前にアラームをセットしたいとする。3時に歯医者の予約があるからだ。そこでAlexaに「午後3時の30分前にアラームをセット」と命じても、午後3時にアラームがセットされてしまう。「何分前」というのは人間にとっては当たり前の概念で、「30分前だからそれは2時半」なのだが、それを考えるぐらいはAIがやればいいんじゃないの、と思う。なんかすっごいCPUとかGPUがバリバリ回ってるんでしょ。どこかで。だめ?  30分前が分からない。あ、そう。

 例えば今日出掛けるのに、「今日これから傘必要?」と聞いても、気温の概況を述べるだけで降水確率も言わない。知りたいのはシンプルに傘を持っていくかどうかだけで、気象情報からそれぐらいは算定してもいいんじゃないの、と思う。なんかすっごいCPUとかGPUがバリバリ回ってるんでしょ。どこかで。だめ?  傘必要が分からない。あ、そう。

 今の音声コマンドの問題点は、自分が知りたい情報のバックボーンまで盛り込めないところだろう。そもそも天気を知りたいのは出掛けるからであり、時間を知りたいのは予定があるからだ。ていうかGoogleカレンダーを同期して筆者のスケジュールまで全部把握しているはずなのに、それぐらい先回りして教えてくれないだろうか。俺のスケジュール、無駄把握か。

 そもそも人はAlexaに対して、その情報が知りたい根拠を説明しない。これが人間相手なら、これから出掛けて帰りは8時頃になるんだけど〜などと言って天気を聞くわけだが、そうした前提なしに知りたいことだけを知ろうとするから、話が噛み合わない。そして多くの人は、何を言っても話が噛み合わないタイプと話すのは面倒くさいのだ。

 面倒くさいをカバーするためのテクノロジーを扱うと別の面倒くさいが発生するなら、これまで通りのほうがマシだ。Echoを2週間で放棄した4分の1の人たちの中には、テクノロジーについていけなかった人だけでなく、新たな面倒に気づいてしまった人も相当数いるのではないだろうか。

スマートスピーカーの「次」

 Amazonでは今も、EchoやAlexaの改良に勤しんでいることだろう。Echoに可能性があるのは、良質な音楽再生スピーカーとしての未来だ。筆者はEcho Studioをステレオペアで使用しており、空間オーディオを楽しんでいるが、音質的にもコスト的にも大変満足している。この品質がこの価格で作れるのは、これが有象無象の製品がひしめき合うBluetoothスピーカーではなく、1つのモデルが大量に売れるEchoだからである。高速なWi-Fiと繋がり、ストリームサービスから直接デコードできるというアーキテクチャは、オーディオの新しいカタチといえる。

photo 筆者がステレオペアで使っているEcho Studio

 音楽再生用ではないモデルは、今後はディスプレイ付きが主流になるだろう。従来のように音声でしか応答しないのでは、こちらから情報を聞き出すしかないし、どんな情報を抱えているのかも一覧できない。だがディスプレイがあれば、抱えている情報を常時表示できる。人はチラ見するだけで済むので、面倒くさくならない。今は7インチや10インチの小型ディスプレイが主力だが、可動式プロジェクターで人の視線に入る場所に情報を投影するなど、さまざまな展開が考えられる。

 音声コマンド以外には、身振り・手振り・表情による操作は可能性がある。音声は元々コミュニケーションの手段として発達してきており、会話がきちんと成立することが期待されている。だから噛み合わないとイラつく。一方でジェスチャーや表情は、完璧に伝わることが大して期待されていないので、噛み合わなくても不満が少ない。これは多くの人にとって、救いになる方法だろう。

 ジェスチャーコマンドは、実はGoProやドローンのようなカメラ製品には、すでに搭載されている技術だ。AmazonではEcho SpotやEcho Flex用拡張センサーモジュールといった製品を2018年から19年にかけて投入したが、いまのところどちらもうまくいっていない。ただ、表示している情報の切り替えや、Yes/Noの返答、いきなり喋りだしたAlexaを黙らせるといった反応をアクションで返せるのは、理にかなっている。

 スマートスピーカー市場は天井が見え始めているという分析もあるが、空気を読まずに声でコマンドを発するだけでは、遅かれ早かれそうなるだろう。スマートスピーカーが次の世代に行くためには、もっと1人1人の個性や生活のあり方に寄り添う必要がある。ただ、寄り添ってはほしいが、話し相手がほしいわけではない。いきなり喋りだして、このあいだAmazonで買った商品に星をつけろなどと言われる筋合いはないのだ。

 カメラで人の動きや表情、感情を読み取って、カスタマイズしていくことは技術的には難しくはないのだろうが、大手IT企業が個人のプライバシー情報を大量に取得することが問題視される中、この学習方法はなかなかうまくいかないだろう。誰も監視カメラの前で着替えたり鼻をほじったりはしたくないのだ。だから着替え始めたらカメラが後ろを向くなど、明示的に情報を取得しないというアクションを見せる必要はあるはずだ。

 スマートとは、賢いという意味であったはずだ。従来のキカイよりも賢いのではなく、人にとって本当に賢いとは、きちんとした教育を受けて真摯に振る舞う人のようであることだろう。スマートスピーカーは、そこに行くための方法論が問われているのだと思う。

前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.