プロナビ

完全ワイヤレスイヤフォン型のAI文字起こしガジェット「viaim RecDot」と「NoteKit」を試す 600分/月まで無料プランもあり「目指せ↑ワンランク上の仕事術」デジモノ探訪記(3/4 ページ)

» 2025年05月20日 12時00分 公開
[石黒直樹ITmedia]

そして、リアルタイム翻訳機能

 個人的に一番期待した機能が、リアルタイム翻訳機能です。イヤフォンタイプということもあり、「音声を拾ってリアルタイムに翻訳した音声が耳から聞こえる……」ということかと思いましたが、厳密にはそうではありません。それこそドラえもんの「ほんやくコンニャク」のように、「対面での会話が翻訳されながら会話ができる」という使い方に期待していました。その点では、非常に惜しいとの印象です。

 実際は使い方にややクセがあるのです。まず、専用アプリで録音&リアルタイム文字起こしを開始します。このリアルタイム文字起こしですが、その内容をリアルタイムに共有することができます。「テキストライブ」機能と言って、共有操作をすると、ネット上に専用のURLと4桁のパスワードが発行されます。

 発行されたURLをコピペするか、QRコードで読み取るかをすることで、ブラウザからアクセスします。すると、専用アプリで見る文字起こしと同じように、ブラウザ上にリアルタイムに文字起こしされていきます。そして、このブラウザ側にリアルタイム翻訳機能があります。

photo ブラウザで表示したところ。おそらくクラウド側で翻訳/音声が生成され、ブラウザから再生されているのでしょう

 使い手の感覚からすると、専用アプリ内でリアルタイム翻訳を行ってほしいところですが、私が試した時点ではまだ実装されていません。技術的な制約があるのかは分かりませんが、「URLを発行して……」というのは大きな手間ですので、専用アプリ内で完結したいところですね。

 しかし、実はこのブラウザを介してリアルタイム翻訳をする仕組みは、優れている点があります。上記のテキストライブのページですが、最大300人接続できます。そして、このリアルタイム翻訳は、それぞれのブラウザで好きな言語が設定できます。つまり、Bさんは英語に翻訳して聞く。Cさんはアラビア語に翻訳して聞くといった使い方が可能です。

 セミナーなどで、講演者の話を文字起こししながら多国籍の方々にも伝えていく……といった使い方もできるのでは、と感じました。ちなみに、録音を停止すると共有のURLも閉鎖されます。

AIの精度は?

 リアルタイム翻訳と言っても、タイムラグがないわけではありません。話し手の言語を文字起こしして認識し、ある程度の文節が切れたところで対象の言語に翻訳、そこから音声を生成、という流れになります。そのため、会話の切れ目がないとなかなか翻訳されません。

 こうした「AIを使った文字起こしや翻訳の精度はどうなの?」という点は気になるところだと思います。感覚ではありますが、精度自体は昨今のAIの性能と同等とイメージしていただければよいと思います。

 そして、どちらかというと、話し手の技量が精度に影響するのでは、と感じました。本当にリアルタイムで翻訳させながら伝えようと考えると、話し手が文の切れ目を意識しながら話す必要があります。また、そもそも話し手の滑舌が悪いと、当たり前ですが文字起こし自体がうまくできません。

 これは会議でも同様です。会議の場合、そもそも会話自体が文章を書くように流ちょうには話していません。この辺りはAIで処理するにも限界がありますので、より話し手が明確に話すことが大切になってくるのではないでしょうか。きちんと発音よく、文章として話すと、しっかりと文字起こしできて、それなりに妥当な翻訳となります。

 実際の会議で試してみましたが、正直、文字起こしは内容が分かるような、分からないような、といった文章になっていました。これは、会議の参加者の話し方の問題だと感じます。

 しかし文字起こし内容を要約すると、おおむね内容は合っているという不思議な感じになりました。要約時に(文章の)ノイズがカットされるからでしょうか。

Copyright © ITmedia, Inc. All Rights Reserved.

最新トピックスPR

過去記事カレンダー