本製品の最大の特徴は、生成AIを利用してカメラが捉えた映像を分析し、その内容を説明する日本語テキストを生成できることだ。メーカーの発売時点のリリースによると、以下の機能を実装済みであるとしている。
これらは被写体の種類ごとに、別々の有料アドオンで提供される。例えば宅内の監視は「探偵ViewSay」(月額900円)、赤ちゃんの見守りであれば「ベビーシッター奈緒」(月額900円)、猫の観察であれば「猫ちゃん観察員もも」(月額600円)といった具合にアバター付きの有料アドオンがあり、それぞれ「エージェント」と呼ばれている。クセの強さは好みが分かれるが、ひとまずメーカーがやりたいことは理解できる。
今回は一般的な室内の観察ということで探偵ViewSayを導入した。これにより、イベントを記録する動画に付与されるキャプションが、これまでは「モーション」「人物」といった定型文だったのが、「部屋の中に〇〇が見えます」などといった、動画の内容を表したテキストへと改められることになる。
ただし実際に試した限り、現状の実用性はほぼ皆無だ。というのもこの生成されるテキストは、検知したモーションに対してではなく、画面に映っている背景に対して生成されるケースがほとんどだからだ。
例えばカメラの前を家族が横切った場合、ユーザーが求めるのは、家族の誰が通ったのか、またどちらの方向に通り過ぎたのか、という情報だろう。ところが本製品が生成するテキストは「白い壁の落ち着いた雰囲気の部屋です」といった、モーションとは無関係な、背景にまつわる情報ばかりだ。
そもそも本製品は屋内用モデルであり、背景に映るのは全て見知った室内の様子だ。壁が白いです、カーテンがあります、などと日頃見慣れた部屋の様子を説明されても意味がない。このぶんだと、不在時に侵入者を検知した場合でも、言及されるのは侵入者とは無関係な、部屋の雰囲気や家具の配置だけだろう。
もしかするとカメラの前を通過する時間が短すぎるせいかと思い、本製品をTVの画面に向けっぱなしにしてしばらく放置してみたところ、料理番組や旅番組、バラエティー、スポーツ中継など、ジャンルに応じてそれらの内容がテキスト化された。ある程度長い時間に渡って映れば、それなりにテキスト化されるようだ。対応するジャンルも、少ないわけではないようである。
もっとも、この場合もモーション検知のきっかけになった動きは無視され、その瞬間に映っているものだけをテキスト化する傾向は変わらなかった。見た目は動画を解析しているようで、実際には静止画を解析しているのかもしれない。
面白い傾向としては、画面に字幕が出ていると、その内容がそのままテキストに反映されることだ。おそらく画面内に文字情報があれば、テキスト化にあたって優先的に採用するロジックなのだろう。ただし字幕が必ずしも画面に映っている内容を表しているわけではないため、結果的に唐突かつ意味不明なテキストが表示されることも多く、こちらも実用性は低い。そもそも画像と照合せずに出力している時点でマイナスだろう。
ともあれ、これら機能の本来あるべき姿は、モーションを検知した時に、そのモーションについての情報、つまり「モーションを検知した瞬間の映像」から「通常時の映像」を引いた差分の情報をテキスト化してくれることだろう。しかし現状では「通常時の映像」しか提供してくれないので、監視カメラに搭載する機能としては期待外れだ。
このあたり、今回試していない別のエージェント(アドオン)であれば、きちんと出力されるのかもしれないが、少なくとも今回見てきた内容では、とてもではないがお勧めできるレベルにはない。前述のTVを使った実験のように、被写体が長時間映る環境であれば、多少なりとも正確にテキスト化される可能性はあるが、そうした生成AIの癖に合わせてユーザーが行動を変えなくてはならないのは本末転倒だ。
Copyright © ITmedia, Inc. All Rights Reserved.