ITmedia NEWS > 製品動向 >
ITmedia AI+ AI活用のいまが分かる

文字起こしと日本語入力の未来小寺信良のIT大作戦(3/4 ページ)

» 2022年05月30日 15時11分 公開
[小寺信良ITmedia]

Zoom対談の書き起こしはどうか

 そこでZoomでの対談を収録したファイルを書き起こしさせてみた。元ネタは西田宗千佳氏と筆者で発行しているメールマガジン内のコンテンツで、武蔵大学社会学部メディア社会学科の庄司昌彦教授との対談を録音したものである。該当部分は無料でnoteにてご覧いただけるようになっている。

 CLOVA Noteで録音ファイルを扱うには、iCloudかiPhoneローカルにファイルを転送する必要がある。iPhoneローカルへ直接はなかなかガードが堅いので、もともとPCに保存してある録音ファイルをiCloud経由で同期した。

 およそ20分の録音だが、アップロード前には録音と同じく録音音声の種類や話者の数などを設定する。クラウドへのアップロードは10数秒、書き起こし処理も10数秒で、トータル30秒もかからずにテキスト化が終了する。アプリ上では参加者1と2という具合に話者が分けられているが、同じ話者でも一定量で発言が分割される傾向がある。

photo 話者の書き分けに対応

CLOVA Noteファイルアップロードによる音声認識

「えっと、じゃあまずですね。あの、要するに行政がまdしなきゃいけないよという話になった ま、そもそもの背景には要するにか、これまでのカビの行政手続きじゃダメだっていう話がまああると思うんですけど、 要はスタート地点ですよね。要は紙でやってて、なんでダメなのか。まあ、その海外はもうすでにあのデレクスしてるよみたいな話も

参加者 1

あったんでしょうけど、その日本において、はい、あの、いよいよそのd化していかないとえ、ダメだ。はいっていう話の原点って、どこどどこらへんにあるんですかね。

参加者 2

まあ、あの問題は昔からあったわけですけど、も、えっと、 ま注目が集まるようになったのは、コロナになってからですよね。で、その

参加者 1

ああまあ最近じゃ最近なんですね、じゃあね、

参加者 2

いや、まあ、はい。あの、いろんな問題はあるんですけど、まあ、1番わかりやすいのはコロナ。

あで、やっぱこの反抗の話がおまずあお目立ちましたよね。とで、反抗の問題はつまり、 えっと、その人と人が対面で

参加者 2

お会いするとか。それから、その窓口に行くために家から出て公共交通機関に乗っていくとかっていうのは、感染リスクあるでしょう。と ですね。え、いうことで、そのま対面の手続きはやめた方がいいんじゃないでしょうか。と いうこととか、あるいはその決裁文書とかもそうですけど、犯行を押すために出社しなきゃいけないとかね

参加者 2

ええ、そういうの感染リスクがありますよね。ってえ、これ家でステイホームで仕事しろって言うんだったら、家からできるように するべきじゃないの。っていうのが、まあまず1つ大きなあのきっかけだったと思います。 」

 部分的に話者を間違えている部分もみられるが、それよりも固有名詞の誤認識が多いのが気になる。「ハンコ」が「犯行」や「反子」になっているが、話の流れからのちに文意の中から「ハンコ」の話だと理解したら、前に遡って修正するなどのフィードバックが欲しいところだ。

 そもそも「反子」という単語は現代では使われておらず、調べてみると、江戸時代の一部漁民の称として記録があるだけで、読みは「そりこ」である。読みも意味も正しくない漢字を当ててくるのは、文意を読み取れないので、単漢字変換辞書から持ってきたのだろう。

 また「紙」が「カビ」と誤認識されているのも、文意を読み取れていない証拠である。「紙の行政手続き」はそれだけで意味が通じるが、「カビの行政手続き」は全く意味をなさない。

これぐらいが今のエンジンなら限界なんじゃないの? と思われるかもしれないが、有料サービスである「notta」では、同じファイルを認識させても以下のように文意を正しく理解している。

Nottaによる音声認識

「まずですね、要するに行政がDXしなきゃいけないよという話になったそもそもの背景には要するにか、これまでの紙の行政手続きじゃ駄目だっていう話がある と思うんですけど、要は、要はスタート地点ですよね、要は紙でやってて何で駄目なのか海外はもう既にDXしてるよみたいな話もあったんでしょうけど、その日本において、はいよいよDX化していかないと駄目だっていう話の原点ってどこどん、どこら辺にあるんすかね。

問題は昔からあったわけですけども、注目が集まるようになったのはコロナになってからですよね最近最近なんですねじゃあね。

いやはいいろんな問題があるんですけど、一番わかりやすいのはコロナで、やっぱはんこの話がまず目立ちましたよねと。

犯行の問題はつまり人と人が対面でお会いするとか、それから

窓口に行くために家から出て公共交通機関に乗っていくとかっていうのは、感染リスクがあるでしょうとですね。

いうことで、対面の手続きはやめた方がいいんじゃないでしょうかということとか、あるいは決裁文書とかもそうですけどハンコを押すために出社しなきゃいけないとか、ね、そういうの感染リスクありますよねってこれ、家でステイホームで仕事しろって言うんだったら、家からできるようにするべきじゃないのっていうのがまず一つ大きなきっかけだったと思います。」

 この精度の差が、今のところ学習の積み上げの高さであり、無料・有料の差、ということになる。ただNottaは話者を区別しておらず、そのあたりが今後の課題であろう。こうした機械学習は、食わせれば食わせるほど賢くなっていくので、CLOVA Noteはもう少し長い目で成長を見ていく必要はある。

Copyright © ITmedia, Inc. All Rights Reserved.