映像を生成AIでテキスト化! ネットワークカメラ「ATOM Cam GPT」を試して分かった実用性山口真弘のスマートスピーカー暮らし(4/5 ページ)

» 2024年08月01日 17時00分 公開
[山口真弘ITmedia]
※本記事はアフィリエイトプログラムによる収益を得ています

現状は実用性に乏しい文章生成機能

 本製品の最大の特徴は、生成AIを利用してカメラが捉えた映像を分析し、その内容を説明する日本語テキストを生成できることだ。メーカーの発売時点のリリースによると、以下の機能を実装済みであるとしている。

  1. 画像付きプッシュ通知に、内容が一目で分かるように「イベントの文字要約を提供」
  2. 画面内で対象物が迅速に発見できるように、物体の一括認識と正確な位置特定を提供(物体認識)
  3. キーワードを入力するだけで対象の動画を素早く絞り込むことが可能な「スマート検索」
  4. 「テーマをタグとして設定」しておけば、カメラが内容を監視し、検出時にプッシュ通知を送信
  5. 特定の時間帯に発生した類似する内容の動画をまとめ、文字で説明を加えて閲覧しやすくする(ビデオクラスタリング)

 これらは被写体の種類ごとに、別々の有料アドオンで提供される。例えば宅内の監視は「探偵ViewSay」(月額900円)、赤ちゃんの見守りであれば「ベビーシッター奈緒」(月額900円)、猫の観察であれば「猫ちゃん観察員もも」(月額600円)といった具合にアバター付きの有料アドオンがあり、それぞれ「エージェント」と呼ばれている。クセの強さは好みが分かれるが、ひとまずメーカーがやりたいことは理解できる。

 今回は一般的な室内の観察ということで探偵ViewSayを導入した。これにより、イベントを記録する動画に付与されるキャプションが、これまでは「モーション」「人物」といった定型文だったのが、「部屋の中に〇〇が見えます」などといった、動画の内容を表したテキストへと改められることになる。

アトムテック ATOM Cam GPT ネットワークカメラ スマホアプリ 屋内 パンチルト 日本語テキストを生成する機能は、被写体の種類ごとに別々のアドオン(エージェント)で提供される。独特のノリだ(左)。エージェントは30日間無料で試用できる。今回は「探偵ViewSay」を導入してみた(中央)。対応デバイスは本稿執筆時点では本製品のみとなる(右)
アトムテック ATOM Cam GPT ネットワークカメラ スマホアプリ 屋内 パンチルト 本機能オフの場合は、イベントの説明は単純に「モーション」とだけ説明される(左)。本機能がオンだと、カメラが捉えた具体的な内容が日本語テキストで表示される(右)

 ただし実際に試した限り、現状の実用性はほぼ皆無だ。というのもこの生成されるテキストは、検知したモーションに対してではなく、画面に映っている背景に対して生成されるケースがほとんどだからだ。

 例えばカメラの前を家族が横切った場合、ユーザーが求めるのは、家族の誰が通ったのか、またどちらの方向に通り過ぎたのか、という情報だろう。ところが本製品が生成するテキストは「白い壁の落ち着いた雰囲気の部屋です」といった、モーションとは無関係な、背景にまつわる情報ばかりだ。

アトムテック ATOM Cam GPT ネットワークカメラ スマホアプリ 屋内 パンチルト 階段が映るように本製品をセットし何度か上り/下りしてみたが、テキスト化されるのは光線の加減や雰囲気、カーテンなどの背景だけで、モーションのきっかけになった人物についてテキストで言及されることは一切なかった。テキストの表現もかなり無理がある

 そもそも本製品は屋内用モデルであり、背景に映るのは全て見知った室内の様子だ。壁が白いです、カーテンがあります、などと日頃見慣れた部屋の様子を説明されても意味がない。このぶんだと、不在時に侵入者を検知した場合でも、言及されるのは侵入者とは無関係な、部屋の雰囲気や家具の配置だけだろう。

 もしかするとカメラの前を通過する時間が短すぎるせいかと思い、本製品をTVの画面に向けっぱなしにしてしばらく放置してみたところ、料理番組や旅番組、バラエティー、スポーツ中継など、ジャンルに応じてそれらの内容がテキスト化された。ある程度長い時間に渡って映れば、それなりにテキスト化されるようだ。対応するジャンルも、少ないわけではないようである。

 もっとも、この場合もモーション検知のきっかけになった動きは無視され、その瞬間に映っているものだけをテキスト化する傾向は変わらなかった。見た目は動画を解析しているようで、実際には静止画を解析しているのかもしれない。

 面白い傾向としては、画面に字幕が出ていると、その内容がそのままテキストに反映されることだ。おそらく画面内に文字情報があれば、テキスト化にあたって優先的に採用するロジックなのだろう。ただし字幕が必ずしも画面に映っている内容を表しているわけではないため、結果的に唐突かつ意味不明なテキストが表示されることも多く、こちらも実用性は低い。そもそも画像と照合せずに出力している時点でマイナスだろう。

アトムテック ATOM Cam GPT ネットワークカメラ スマホアプリ 屋内 パンチルト TVの画面に向けっぱなしにしたところ、こちらは被写体がTVであることも含めて、画面内の様子がきちんとテキスト化された。ただし前後の内容は無視して、その瞬間に映っているものだけをテキスト化する傾向は相変わらずだ
アトムテック ATOM Cam GPT ネットワークカメラ スマホアプリ 屋内 パンチルト TVの画面内に字幕があると、それに引きずられて説明が意味不明な内容になることもしばしばある。最後の1枚は製品リコールのCMをテキスト化したものだが、説明の体裁をなしておらず、字幕を読み上げただけだ

 ともあれ、これら機能の本来あるべき姿は、モーションを検知した時に、そのモーションについての情報、つまり「モーションを検知した瞬間の映像」から「通常時の映像」を引いた差分の情報をテキスト化してくれることだろう。しかし現状では「通常時の映像」しか提供してくれないので、監視カメラに搭載する機能としては期待外れだ。

 このあたり、今回試していない別のエージェント(アドオン)であれば、きちんと出力されるのかもしれないが、少なくとも今回見てきた内容では、とてもではないがお勧めできるレベルにはない。前述のTVを使った実験のように、被写体が長時間映る環境であれば、多少なりとも正確にテキスト化される可能性はあるが、そうした生成AIの癖に合わせてユーザーが行動を変えなくてはならないのは本末転倒だ。

Copyright © ITmedia, Inc. All Rights Reserved.

最新トピックスPR

過去記事カレンダー