プロナビ

試しに使った「オートメモ S」はインタビューでも打ち合わせでも会議でも使える文字起こしツールだった(3/3 ページ)

» 2023年04月21日 07時00分 公開
[i4U]
前のページへ 1|2|3       
※本記事はアフィリエイトプログラムによる収益を得ています

72言語対応! 英語と中国語を試してみた

ライン入力で英語の映画で試してみた

 日本語の文字起こし機能だけで、筆者には十分神アイテムなのですが、実はオートメモ Sは72言語の文字起こしに対応しています。ただし翻訳機能はありません。また、テキスト化する言語を先に選択しておく必要があるので、複数の言語が混じっている場合には対応できないそうです。

 対応言語は日本語/英語(米国)/英語(英国)/中国語(簡体字)/中国語(繁体字)などはもちろん、バスク語やマラヤーラム語などです。

 オートメモ Sが対応している3.5mm/3極のマイク入力端子を使って英語の映画を再生し、その音声をどの程度テキスト化することができるのか、英語字幕と比べてみました。

 その結果、音声データのかなりの部分がテキスト化されており、ある程度の意味は分かりました。

 筆者にとってのメリットは、全くリスニングできない言語がテキスト化されることにあります。今回、どの程度正確かをチェックするために英語字幕のある映画の音声で実験しましたが、字幕がない動画や音声も、オートメモ Sでテキスト化さえできれば、そこから翻訳などを行う方法はいろいろとあるので、さまざまな使い道が考えられるのではないでしょうか。

オートメモ S 3.5mm/3極のマイク入力に対応しているので、PCやTVなどからも音声入力が可能です。動画のテキスト化などさまざまな使い方ができます

中国人である妻の会話を文字起こし

 中国語はどの程度文字起こしできるのでしょうか。英語に続いて、同じように試してみました。

 実は筆者の妻は中国人です。そして、妻はかなり頻繁に実家と音声通話を行っています。リアルな中国語会話をどこまで文字起こしできるのでしょうか。妻たちの日常会話を録音して文字起こししてみました。おそらく中国の東北なまりがある上に、かなりブロークンなので、難易度は高いでしょう。

 録音したファイルを文字起こししたテキストを妻に見てもらいました。自分が家族と話している様子をテキスト化されるのは、結構恥ずかしいようで、苦笑いをしながら眺めていました。そして「さすがに日本のメーカーのAIだからなのか、あまり中国語は得意ではないのかも」と言い出したのです。

 妻と実家との音声会話は、筆者が近くで話している妻の音声を録音したので、スピーカーモードになっているとはいえ、相手側の声が小さく、妻の独り言のようになっている部分もありました。そのためか、妻が指摘するように、さほど中国語がうまくない私の目から見ても、日本語ほど上手にテキスト化されているようには感じませんでした。

 妻は普段から、日本語の学習のため、中国語で話しかけた言葉をテキスト化し、さらに日本語や英語に翻訳する中国のアプリを使用しています。それに比べると「日本語の認識能力は高いけれど、中国語の精度はいまひとつ」とのことでした。

オートメモ S 電話での通話をそのままマイクで録音したので、妻の声が大きく、相手側の声が小さくなってしまったようです

全く知らない言語もテキスト化できれば何とかなる?

 日本人であれば、少しは習ったことのある英語や、漢字をある程度共用している中国語などは、取り付く島が多少あるかもしれません。しかし、どの言語であるかが分かる程度の音声からは、情報を全く取り出せない状況もあることでしょう。

 そんなときにもオートメモ Sなら、何とかテキスト化は可能です。そのテキストをPCなどに取り込み、翻訳サービスなどを使用すれば、全く知らない言語でも意思の疎通程度はできるでしょう。そういう意味では、オートメモ Sは本当に便利なツールです。

 ただし、気を付けておきたいのは、リアルタイムな文字起こし機能がないことです。オートメモ Sは、1時間ほどの録音データをWi-Fiでクラウドへアップすると、約20分でテキストデータ化されるという仕組みだからです。リアルタイムで翻訳したいのであれば、同じソースネクストの「ポケトーク」などの方が便利だと思います。

オートメモ Sのテキスト化機能 全く知らない言語でも、何語かさえ分かればテキスト化できるのが、とてもユニークなところです。字幕のない動画などから、音声をテキスト化するのもおもしろいでしょう

「完璧」ではなく「実用」を求めるならお勧め

 話すスピードによっても異なりますが、1時間のインタビューを文字数にすると、日本語で2万字程度になるといわれているそうです。2時間だと約4万字になります。

 これに対して、一般的な社会人が1分間で読める文字数は約600字、普段から文字を読み慣れている方なら約1000文字だと言われています。

 つまり、聞けば2時間かかる情報でも、普通の社会人なら約66分、文字を読み慣れている方なら約40分で取り込めることになります。しかも音声データと違って、テキストであれば、スクロールすることで重要な部分を再確認できますし、文字検索なども利用できます。

 とはいえ、音声データから文字起こしを行うには、慣れた人が1時間分を起こすのに約4時間、初心者なら約6時間近く掛かるといわれており、時間もコストも必要です。しかしオートメモ Sを使えば、人が行うよりも精度が落ちるものの、約20分で完成します。しかも、外注や人件費に比べるとコストも圧倒的に安くなります。

 当初、インタビュー記事の文字起こしを省力化するためにオートメモ Sを導入しましたが、実際に使っているうちに、ちょっと重要な打ち合わせは録音してテキスト化するといった使い方もするようになってきました。テキスト化することによって、文書化されていないクライアントの細かな希望を再認識しやすくなりますし、これにより意思疎通の齟齬(そご)を減らす効果も得られます。

 ちなみに、筆者は過去の記事「『音声入力』と『ミニキーボード』で、子どもを抱いたままの書類作成が可能に」でGoogle ドキュメントの音声入力を絶賛しました。

 しかし、インタビューのように音声入力機器が脇役となり、話が人間同士でどんどん進むタイプのシチュエーションでは、Google ドキュメントはリアルタイムで文字起こしを行うためか、話についていけないことも多く、向いていないと感じています。

 一方、音声入力で原稿を書くシーンでは、筆者は今もGoogle ドキュメントを使用しています。これはPCなどの処理速度に合わせて、文章に近い形式で話しかけて文章を入力するならGoogle ドキュメントの方が向いていると感じているためです。ただし、インタビューの仕事では圧倒的にオートメモ Sの方が優秀です。

 議事録の作成はもちろん、インタビューや取材、クライアントとの打ち合わせが多い方は1台持っておいて損はないでしょう。非常にお勧めできるツールです。

前のページへ 1|2|3       

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2024年05月09日 更新
最新トピックスPR

過去記事カレンダー