文字起こしツールをよく使う立場として気になる技術的課題をいくつか挙げておく。
メモリ容量の制限は気になる制約だ。イヤフォン内のストレージには限りがあり、容量を超過するとスマホにダウンロードして空ける必要がある。長時間のミーティングでは注意が必要になる。メーカーによれば片側イヤフォンでの通話録音は約139分、現場録音では約79分が限度とのこと。
操作系にも改善の余地がある。イヤフォンの長押しで録音開始・終了ができるが、装着調整時に誤って録音を停止してしまった経験がある。重要な取材や会見では、誤操作のリスクは最小限に抑えたい。
また、気になるのはバックエンドインフラ。文字起こしはアプリから音声をクラウドサーバに渡して処理する関係上、ネットワーク接続が必須となる。クラウドサーバの所在地については、5月末に日本国内サーバに移行予定としている。
メーカーによれば、オフラインでの文字起こし機能の提供を計画しているというが、リリース時期は未定だ。
音声録音のプライバシーやDRM回避の可能性も倫理的課題として認識しておくべきだろう。Bluetoothオーディオの録音は、版権保護コンテンツの録音にも使えてしまう。汎用(はんよう)性が高いだけにエンドユーザーの倫理観に委ねられる部分が大きい。法令・利用規約に従った正当な用途を推奨したい。
RecDotは、録音・文字起こし・要約という一連の作業をイヤフォンだけで完結させる“ポケットサイズのAIレコーダー”だ。スマートフォン経由でオンライン・オフライン両方の音声を即座にテキスト化できるため、取材と会議を並行してこなす現場では大幅な時間短縮につながる。
アプリを問わず録音でき、話者識別や要約まで自動化され、さらにクラウド同期によってPCでの録音の活用もシームレスだ。一方で、装着の安定性にやや不安が残ること、ネットワーク接続が必須でオフライン処理に対応しないこと、イヤフォンのタッチ操作で誤って録音を停止しやすい点など、いくつか改善の余地も見える。
3万4800円という価格は安価ではないが、「録る」「起こす」「探す」に費やす手間を丸ごと省けると考えれば、文字起こしを日常的に使うユーザーには十分に投資価値がある。
特に複数の会議を縦横無尽にこなすビジネスパーソン、出先で原稿作成まで完結させたいモバイルワーカー、そして専門知識なしで高精度な文字起こしワークフローを求める人にとっては、時間を“買う”ための有力な選択肢になるだろう。
(製品協力:HONG KONG FUTURE INTELLIGENT TECHNOLOGY)
iPhone 16とPixel 9で「文字起こし」の精度を比較 オンライン会議と騒がしいファミレスで試した結果
iPhoneの「ボイスメモ」で文字起こしをする方法
Pixelの「レコーダー」アプリで“文字起こし”を利用する方法 議事録として活用できる
LINE、AI文字起こしサービス「CLOVA Note」を提供 複数話者の聞き分けも可能
文字起こしAIボイスレコーダー「AutoMemo R」9月5日発売 年額プランの50%キャッシュバックもCopyright © ITmedia, Inc. All Rights Reserved.