ITmedia NEWS > 製品動向 >
ITmedia AI+ AI活用のいまが分かる

文字起こしと日本語入力の未来小寺信良のIT大作戦(2/4 ページ)

» 2022年05月30日 15時11分 公開
[小寺信良ITmedia]

ライブ録音派とファイルアップロード派

 音声認識AIによるテキスト変換は、現在大きく2タイプの実装がある。GoogleやMicrosoftが実装しているのは、リアルタイムの音声入力をライブ変換で文字化するという方法だ。これは音声録音と同時に逐一文字化されていくので、喋り終わりと日本語テキストの仕上がりが同時である。

 その半面、すでにファイル化された音声を文字化する場合は、スピーカーなどで再生してそれを聴かせるという作業が必要になる。

 もう1つの実装は、ファイル化された音声をクラウドにアップロードして、非リアルタイムで文字化するというものだ。Adobe Premiere ProやVrewといった字幕制作系サービスでは、この方法をとっている。またNottaのような有料サービスでは、どちらの方法でも対応できるよう実装されている。

 CLOVA Noteの実装は、後者である。アプリを使って録音はできるが、リアルタイムに文字化されるのではなく、録音終了後にクラウドに音声ファイルがアップロードされ、しばらくするとテキストデータとして降りてくるという仕組みだ。アップロードの際には、録音音声の種類や話者の数などを設定する。これにより、学習パターンや認識エンジンの設定を切り替えているものと思われる。

photo 音声の種類を選択する

 では実際にCLOVA Noteは、どれぐらいの精度でテキスト化できるのだろうか。以下の原稿を読み上げ、CLOVA Noteと、文字起こしとして定評があるGoogle Pixelの「レコーダ」で比較してみよう。

photo 音声収録中は何も起こらない
photo 変換が終わるとダウンロード可能になる

原稿

「こんにちは小寺信良です。

本日はAI認識による音声の文字起こし機能比較として、LINE CLOVA Noteと、Google Pixel 6・6 Pro以降で実装された標準レコーダを比較しています。

音声からの日本語の文字起こし機能はすでにGoogle DocsやMicrosoft Wordなどがクラウドサービスの一環として数年前から実装してきましたが、マイクが内蔵され、気軽に録音できるスマートフォンに実装されてから、その手軽さ故に注目を集めています。

時間のかかる議事録の書き起こしなども、録音状態が良ければかなり手間が省けるようになって来ました。固有名詞の判定や、同音異義語の誤変換という問題も一部ではまだあるようですが、音声入力は今後、キーボードやフリック入力に変わる日本語入力手段として、普及していくのでしょうか。」

CLOVA Note

「こんにちは、小寺信義です。本日はai認識による音声の文字起こし、機能比較として、 lineクローバーノートと、googlepl66プロ以降で実装された標準レコーダーを比較しています。

音声からの日本語の文字起こし機能は、すでにgoogledoxやマイクロソフトワードなどがクラウドサービスの一環として、数年前から実装してきましたが、

マイクが内蔵され、気軽に録音できるスマートフォンに実装されてから、その手軽さ故に注目を集めています。

時間のかかる議事録の書き起こしなども、録音状態がよければ、かなり手間が省けるようになってきました。固有名詞の判定や、同音語の誤変換という問題も、一部ではまだあるようですが、 音声入力は今後、キーボードやフリック入力に代わる日本語入力、手段として普及していくのでしょうか。」

Google Pixel レコーダ

「こんにちは。小寺信義です。本日は AI 認識による音声の文字を越し機能比較として LINE クローバーノートと Google Pixel 6 Pro 以降で実装された標準レコーダーを比較しています。音声からの日本語の文字起こし機能はすでに Google ドックスやマイクロ、ソフトワードなどがクラウドサービスの一環として数年前から実装してきましたが、マイクが内蔵され、気軽に録音できるスマートフォンに実装されてから、その手軽さゆえに注目を集めています。

時間のかかる議事録の書き起こしなども録音状態がよければかなり手間が省けるようになってきました。こういう名手の判定や同音異義語の誤変換という問題も一部ではまだあるようですが、音声入力は今後キーボードやフリック入力に変わる日本語入力手段として普及していくのでしょうか?」

 小寺信良という固有名詞が両方とも間違っているのは筆者が無名故に致し方ないとして、CLOVA Noteは英単語として認識したものを常に小文字で表記するというクセがある。Googleは聴き取れたものの、Pixelはまだ学習していないのかもしれない。

 一方Googleのほうは、さすが自社製品は完璧に文字起こししてくるが、「Pixel 6、6Pro〜」と発音した部分は、「6」を言い間違いだと判断したのか、「Pixel 6 Pro」にまとめられている。

 集音状態が良く、朗読口調で読むと、どちらもかなり正確にテキスト化されているのが分かる。しかし実際にはこうした理想的な録音を文字起こしする機会はあまりないだろう。期待されているのは、複数人の会議やディスカッションの書き起こしである。

Copyright © ITmedia, Inc. All Rights Reserved.