映像を生成AIでテキスト化! ネットワークカメラ「ATOM Cam GPT」を試して分かった実用性:山口真弘のスマートスピーカー暮らし(4/5 ページ)
スマートスピーカーやその関連デバイスについて、試行錯誤を繰り返しつつ、機能をバリバリ使えるようになる(予定)までの過程を、時系列でお届けする本連載。今回は、斬新なコンセプトを提示したアトムテックの新型ネットワークカメラ「ATOM Cam GPT」を試した。
現状は実用性に乏しい文章生成機能
本製品の最大の特徴は、生成AIを利用してカメラが捉えた映像を分析し、その内容を説明する日本語テキストを生成できることだ。メーカーの発売時点のリリースによると、以下の機能を実装済みであるとしている。
- 画像付きプッシュ通知に、内容が一目で分かるように「イベントの文字要約を提供」
- 画面内で対象物が迅速に発見できるように、物体の一括認識と正確な位置特定を提供(物体認識)
- キーワードを入力するだけで対象の動画を素早く絞り込むことが可能な「スマート検索」
- 「テーマをタグとして設定」しておけば、カメラが内容を監視し、検出時にプッシュ通知を送信
- 特定の時間帯に発生した類似する内容の動画をまとめ、文字で説明を加えて閲覧しやすくする(ビデオクラスタリング)
これらは被写体の種類ごとに、別々の有料アドオンで提供される。例えば宅内の監視は「探偵ViewSay」(月額900円)、赤ちゃんの見守りであれば「ベビーシッター奈緒」(月額900円)、猫の観察であれば「猫ちゃん観察員もも」(月額600円)といった具合にアバター付きの有料アドオンがあり、それぞれ「エージェント」と呼ばれている。クセの強さは好みが分かれるが、ひとまずメーカーがやりたいことは理解できる。
今回は一般的な室内の観察ということで探偵ViewSayを導入した。これにより、イベントを記録する動画に付与されるキャプションが、これまでは「モーション」「人物」といった定型文だったのが、「部屋の中に〇〇が見えます」などといった、動画の内容を表したテキストへと改められることになる。
日本語テキストを生成する機能は、被写体の種類ごとに別々のアドオン(エージェント)で提供される。独特のノリだ(左)。エージェントは30日間無料で試用できる。今回は「探偵ViewSay」を導入してみた(中央)。対応デバイスは本稿執筆時点では本製品のみとなる(右)
ただし実際に試した限り、現状の実用性はほぼ皆無だ。というのもこの生成されるテキストは、検知したモーションに対してではなく、画面に映っている背景に対して生成されるケースがほとんどだからだ。
例えばカメラの前を家族が横切った場合、ユーザーが求めるのは、家族の誰が通ったのか、またどちらの方向に通り過ぎたのか、という情報だろう。ところが本製品が生成するテキストは「白い壁の落ち着いた雰囲気の部屋です」といった、モーションとは無関係な、背景にまつわる情報ばかりだ。
階段が映るように本製品をセットし何度か上り/下りしてみたが、テキスト化されるのは光線の加減や雰囲気、カーテンなどの背景だけで、モーションのきっかけになった人物についてテキストで言及されることは一切なかった。テキストの表現もかなり無理がある
そもそも本製品は屋内用モデルであり、背景に映るのは全て見知った室内の様子だ。壁が白いです、カーテンがあります、などと日頃見慣れた部屋の様子を説明されても意味がない。このぶんだと、不在時に侵入者を検知した場合でも、言及されるのは侵入者とは無関係な、部屋の雰囲気や家具の配置だけだろう。
もしかするとカメラの前を通過する時間が短すぎるせいかと思い、本製品をTVの画面に向けっぱなしにしてしばらく放置してみたところ、料理番組や旅番組、バラエティー、スポーツ中継など、ジャンルに応じてそれらの内容がテキスト化された。ある程度長い時間に渡って映れば、それなりにテキスト化されるようだ。対応するジャンルも、少ないわけではないようである。
もっとも、この場合もモーション検知のきっかけになった動きは無視され、その瞬間に映っているものだけをテキスト化する傾向は変わらなかった。見た目は動画を解析しているようで、実際には静止画を解析しているのかもしれない。
面白い傾向としては、画面に字幕が出ていると、その内容がそのままテキストに反映されることだ。おそらく画面内に文字情報があれば、テキスト化にあたって優先的に採用するロジックなのだろう。ただし字幕が必ずしも画面に映っている内容を表しているわけではないため、結果的に唐突かつ意味不明なテキストが表示されることも多く、こちらも実用性は低い。そもそも画像と照合せずに出力している時点でマイナスだろう。
TVの画面に向けっぱなしにしたところ、こちらは被写体がTVであることも含めて、画面内の様子がきちんとテキスト化された。ただし前後の内容は無視して、その瞬間に映っているものだけをテキスト化する傾向は相変わらずだ
ともあれ、これら機能の本来あるべき姿は、モーションを検知した時に、そのモーションについての情報、つまり「モーションを検知した瞬間の映像」から「通常時の映像」を引いた差分の情報をテキスト化してくれることだろう。しかし現状では「通常時の映像」しか提供してくれないので、監視カメラに搭載する機能としては期待外れだ。
このあたり、今回試していない別のエージェント(アドオン)であれば、きちんと出力されるのかもしれないが、少なくとも今回見てきた内容では、とてもではないがお勧めできるレベルにはない。前述のTVを使った実験のように、被写体が長時間映る環境であれば、多少なりとも正確にテキスト化される可能性はあるが、そうした生成AIの癖に合わせてユーザーが行動を変えなくてはならないのは本末転倒だ。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
細かすぎて伝わらない!? パンチルト対応のネットワークカメラ「ATOM Cam Swing」を長期利用して分かったこと
スマートスピーカーやその関連デバイスについて、試行錯誤を繰り返しつつ、機能をバリバリ使えるようになる(予定)までの過程を、時系列でお届けする本連載。今回はアトムテックのネットワークカメラ「ATOM Cam Swing」を長期使用して分かったことをまとめた。
格安ながら機能はハイエンド! 税込み2980円のネットワークカメラ「ATOM Cam 2」を試す
圧倒的な低価格で人気を集めたATOM techのネットワークカメラ「ATOM Cam」に、後継モデルが登場した。新モデル「ATOM Cam 2」は何が変わったのか、実機を使って試してみた。
アトムテック、温湿度センサーも搭載したスマートセンサー「ATOM Sensor V2」
アトムテックは、ドアの開閉や動体検知機能などを備えたスマートセンサー「ATOM Sensor V2」を発表した。
同じ「Matter対応」でもここが違う! スマートリモコン2製品を比較して分かったこと
スマートスピーカーやその関連デバイスについて、試行錯誤を繰り返しつつ、機能をバリバリ使えるようになる(予定)までの過程を、時系列でお届けする連載。今回は、Matter対応製品の現状をチェックした。
アトムテック、GPT技術を搭載した家庭用ネットワークカメラ「ATOM Cam GPT」
アトムテックは、GPTによる生成AI機能を利用可能な家庭用ネットワークカメラ「ATOM Cam GPT」を発表した。

