ITmedia NEWS > STUDIO >
ITmedia AI+ AI活用のいまが分かる

言い間違いも直してくれるGoogleの「音声文字変換」、かなり使えるGoogleさん

» 2019年02月11日 10時00分 公開
[佐藤由紀子ITmedia]

 最近の音声テキスト変換技術はすごいです。昔は決算発表後の電話会見がテキスト化されて公開されるのはライブ配信から4日後くらいだったのに、今では数時間後には公開されます。YouTubeの字幕も、Googleの公式チャンネルのものとかであれば、公開の段階で字幕が付いています。

 Googleさんが2月4日に発表したAndroidアプリ「Live Transcribe」(日本では「音声文字変換」)の早期アクセスに申し込んでおいたら、11日にインストールできました。Google Playストアにも未公開版として公開(?)されています。

 jimaku 0

 音声文字変換アプリは、文字通り、音声を文字にリアルタイムで変換して字幕にして表示してくれる「ユーザー補助」アプリです。

 耳が聞こえないあるいは聞こえにくい人との会話は、手話を知らない人の場合は筆談になりますが、それをスマホの画面の字幕でらくちんにするわけです。

 Googleアシスタントの聞き取り能力の高さは競合するデジタルアシスタントの中でもダントツなので、期待できます。

 さっそくインストールして使ってみました。静かな部屋で、マイクに向かってゆっくりしゃべれば、ほぼ100%正しく字幕になります。しかも、実際にほぼリアルタイムです。

 jimaku 1 上のテキストをゆっくり読んだ字幕

 上の画像のように、句読点は省略されますが、漢字への変換も適切です。実はテキストを読み上げるとき、「がめんのじまくでらくにらくちんに」とかんじゃったんですが、最初「楽に楽ちんに」と字幕が表示された後、「字幕で楽チンに」と表示が変わりました。

 とりあえず表示してからちょっと“考えて”修正している感じが、AIっぽいです。コンテキストを解析して、言い間違いを修正してくれてるのです。

 もう1つびっくりしたのは、固有名詞の変換の正確さ。テレビの音声で試していたところ、「堺屋太一」や「辻村深月」などの著名人の名前を正しく変換したのは、Googleさんなら当然だろうと思いましたが、辻村さんの作品「かがみの孤城」をちゃんと変換したことにびっくり。ATOKの変換では「鏡の湖上」になるのに。

 jimaku 2 書籍タイトルもちゃんと変換

 でもそういえば、スマホのGoogleアシスタントに「かがみのこじょう」と言うとちゃんと「かがみの孤城」と変換してGoogle Booksの情報を表示してくれるので、驚くほどのことではないのかも。音声文字変換アプリはGoogleアシスタントと同じGoogle Cloudの「Cloud Speech API」を使っているので、当然なんですね。そう、Google Cloudを使うので、この機能を使うにはインターネットへの接続が必須です。

 ところで、いくら便利でもプライベートな会話を字幕にするためにGoogleのサーバに保存するのはちょっと嫌です。

 プライバシーやGAFAによるデータ収集について世間が過敏になっている今、Googleさんもそこは配慮しています。マイクから入ってきた音声を、字幕に変換した後、サーバに保存することはないと明示しています。Google Playストアでも「会話はあなたの端末上で安全にテキスト化されます」と書いてあります。

 しばらく使ってみたところ、まだ早期アクセス版ということもあり、うまくいかないこともありました。起動してから音声が始まるタイミングが悪いと音を拾ってくれなかったり、アナウンサーではない気象予報士さんの淡々と続く天気予報で入力がところどころ抜けたり、ずっと起動させておいたら途中から反応しなくなったりしました。

 試していたときの予報士さんは江戸っ子なのか(江戸っ子の私の祖母は、私の名前「ゆきこ」を「いくこ」と発音していました)、「ゆき」を「いき」のように発音するので「中心に雪」が「中心に行き」になっています。「ツモロースレ」というのは「積もる恐れ」です。

 jimaku 3 謎の「ツモロースレ」やところどころのはしょりが見える字幕例

 また、まわりがうるさいとぐっと精度が落ちます。耳が聞こえないと、なぜうまくいかないのかも分からないので、周りがうるさいかどうかは画面右上の青い丸でチェックできるようになっています。「バックグラウンドノイズ」の青い丸が「現在の音量」の水色の丸と同じ大きさになると、入力できません。複数の人が同時に話していたり、BGMが流れているといまひとつうまくいきませんでした。

 mimaku 4 周囲がうるさいかどうかがわかるインジケーター

 音声文字変換アプリは現在、日本語や英語を含む70カ国語をサポートしています。2カ国語までセットしておけますが、Google Homeのように自動的に聞き分けるのではなく、画面の下をタップして切り替えます。

 ChromeブラウザでYouTubeの英語の動画と日本語の動画を別のタブで開いて同時に再生しながら、入力言語を切り替えてみたところ、完全ではありませんでしたが、英語モードでは英語を、日本語モードでは日本語を拾って字幕にしてくれました。

 jimaku 5 「日本語」をタップすると「English」に切り替わる(その左は返事入力のためのキーボード)

 早期アクセス版なので、長いスピーチを一字一句落とさずに字幕にしてくれるわけではないですが、聴覚障害者との日常会話には十分使えそうです。返事は画面の下に表示されるキーボードをタップしてテキスト入力できるので、話すのが苦手な障害者の人は返事をテキスト入力できます。

 返事を見せるために画面をいちいち相手に向けなくちゃいけないのは面倒なので、例えば文字変換アプリをインストールしたスマホ同士を接続して、相手のアプリ画面にリアルタイムで返事のテキストが表示されるようにしてほしいです。もう開発中かもしれませんが、フィードバックしてみようっと。

【訂正履歴:2019年3月8日午後5時50分 書籍タイトルを「かがみの狐城」と誤記していました。お詫びして訂正いたします。】

ニュース解説番組「NEWS TV」で記事をピックアップ

ITmedia NEWS編集部がYouTubeでお届けするライブ番組「ITmedia NEWS TV」で、この記事を取り上げています。ぜひ視聴・チャンネル登録をお願いします。


Copyright © ITmedia, Inc. All Rights Reserved.