ここまでできる日本語ディクテーション　「句読点自動認識」に「会話文書き起こし」、Microsoftの2つの「日本語認識」を試す（3/3 ページ）

» 2021年04月08日 09時32分公開

[西田宗千佳，ITmedia]

前のページへ 1|2|3 　　　　　　

「会話」に強い「Group Transcribe」を試す

　もう1つの技術が「Group Transcribe」（App Storeへのリンク）。これは、iOS向けのアプリとしてMicrosoftが提供しているものだ。

Group Transcribe。利用は現状無料で、iOS版だけが公開されている。

　これはOSやWordとは別系統。Microsoft社員が社からの仕事とは別に独自に取り組むプロジェクトである「Microsoft Garage」プロジェクトの1つとして公開されているものだ。

Group Transcribeの画面。各会話を「セッション」という単位で管理する。

　これは人の会話を書き起こすことに特化している。本来は、利用者それぞれがスマートフォンを持ち、その上でGroup Transcribeを動かした上で、同じ「セッション」に入って使う。すると、話した人の会話がそれぞれ別々に記録されていく。記録されたテキストは自動翻訳もできるので、「複数の言語の話者が参加する会話を、音声からテキストにして残した上で自動翻訳する」ということができるわけだ。

　そこまで複雑な使い方をしなくてもいい。ポイントは「話し言葉の認識に優れている」ということと、「スピーカー越しの言葉の認識にも優れている」ということだ。

　音声認識技術は意外なほどノイズに弱い。音質が良ければ良いほど認識率が高まる傾向にあり、「スピーカー越しに聞こえるオンライン会議の声」や「録音した音をスピーカーで再生したもの」の認識には弱い。言葉や文章が丸ごと認識されなかったりする。この辺は英語でも同様。英語では筆者も「Otter.ai」を使っているが、これは、Otterが明瞭でない音声に非常に強い、という理由がある。

　Group Transcribeも、ノイズと話し言葉に強い。日本語での例を以下に示そう。これは、本メルマガ（小寺・西田の「マンデーランチビュッフェ」300号）で記念公開した、小寺・西田の音声対談の一部を書き起こしたものだ。

正しい書き起こし：

小寺：僕が、一番最初夜間飛行で「金曜ランチボックス」を始めたのが2011年の11月なんですよ。

西田：10年弱前？

小寺：10年弱やってるんですよ。

西田：私も調べて「結局そうだったんだな」と分かったんですけど、私がその後に要は独自のメルマガをインプレスで始めたのも、12年3月なので、ちょっとあとなんですよ。小寺さんのものすごいあとで始めた記憶があったんだけど、そのくらいしか差がなかった。

小寺：4ヶ月くらいしか差がなかった。

Group Transcribe：

一番最初に夜間飛行でランチboxっていうやつ始めたのが2011年の11月なんですよ十年弱まで十年十年弱やってるんですよ私も結局今これ調べて僕もあそうだったんだなと思ったんですけど私がその後二次では独自のメルマガをインプレスで一

あのもう2012年の3月なのでちょっとなんですね

おじさんの後から始めた記憶があったんだけど実はそのぐらいしかなかったっていうのがねえっと四か月ぐらいしか違わない

iOS標準：

僕が1番最初に言った解雇で始めたのが2010一年の11月私も結局私もその後に今独自のメルマガをインプレスで始めたのもう2015年の3月飲んでから始めた人があったんだけど多分1つ重要なメニュー

　この結果は、録音をスピーカーから流し、単にアプリに聞かせたものだ。iOS標準では、音質が悪いためかほとんどの部分が飛んでしまってちゃんとテキストにならない。これは、AndroidであってもWindowsであっても同様だ。

　一方、Group Transcribeはそれなりに日本語になっている。話者の分割ができていないし間違いも多いが、取りあえず会話が聞こえている横でアプリを動かすだけで、これだけの結果が得られていると思えば、そんなに悪くないのではないか。

　取材者にとって、インタビューなどの会話をそのままテキスト化することは大きな労力軽減になる。その意味でもちょっと注目したいアプリである。

　ただ課題が2つある。

　1つ目は秘匿性。録音は品質向上のためにMicrosoftに送られるので、外に漏らすべきでない会話は「会話の録音の投稿」設定をオフにしておく必要がある。

デフォルト設定では、品質向上のために録音データはMicrosoftに提供されるため、「提供したくない・できない会話」の場合には、設定で提供を「オフ」にする必要がある

　2つ目は「セッションの長さ」。会話認識は「セッション」という単位で管理されているが、1セッションは30分までとなっているので、その辺でセッションを分割する必要がある。セッション時間が30分を超えると変換は停止される。30分に一度、セッション切り替えの作業をできればいいのだが、それが難しい場合もあるだろう。