ITmedia NEWS > AI+ >
ITmedia AI+ AI活用のいまが分かる

いつの間にか聞き取り上手になったPixel 4とのお仕事Googleさん

» 2019年11月19日 17時00分 公開
[佐藤由紀子ITmedia]

 Pixel 4を使うようになって約1カ月。手にもすっかりなじみました。

 pixel せっかくきれいなオレンジなのでケースを透明にしました

 顔認証にも慣れてきて、もう(Pixel 3のころの習慣で)指紋センサーを探して端末の背中をまさぐったりしなくなりました。ただ、(これはiPhoneでもそうですが)マスクをしているとロック解除できないので、これからの風邪→花粉症の数カ月間の外出中はPIN入力でロック解除することになりそうです。

 mask ここまでずり下げればだいたい認識してくれる

 マスクを上唇の上くらいまでズリ下げれば認識しますが、これが結構面倒。米国では人前でマスクをする習慣があまりないようなので(日本のいわゆるマスクのことを、英語では「手術用マスク」と表現します)、米国のスマートフォンメーカーは、顔認証でのマスク問題を問題だと思っていないのでしょう。

 それ以外は、快適に使えています。Pixel 3よりすっごく便利、というほどではないものの、細かいところが便利になっています。

 1カ月使って一番助かったのは、「レコーダー」アプリでの英語インタビューのリアルタイムテキスト起こしです。まだ日本語のテキスト起こしには対応していないので、便利だと思うのは私のようなヒアリングの苦手なへっぽこ海外記事担当者や英語での講義についていくのが大変な学生さんくらいかもしれませんが、とても助かる。

 recorder 「レコーダー」アプリはPixel 4シリーズでだけ使えます(左から、録音一覧、録音再生、テキスト表示画面)

 しばらく前から、Otter.aiというクラウドベースのリアルタイムテキスト起こしサービスが記者業界では神Webアプリとして評判になっていますが、そちらは一定時間以上使うにはサブスクリプションが必要です。それが、Googleのレコーダーは無料。記録はクラウドではなく、Pixel 4のストレージに保存され、ストレージに余裕があればいくらでも無料で記録しまくれます。

 Otter.aiとレコーダーアプリのどちらの精度が高いかは、厳密に比較していないので分かりませんが、同じ音声を同時にテキスト起こししてもらったところ、人間にとって聞き取りにくいところはAIにも難しいようで、2つとも聞き取れておらず、その推測のしかたがそれぞれ違っていて面白いです。

 決算発表後の電話会見で、偉い人が原稿を読み上げているような部分は、ほぼ完璧なテキストに再現されます。ピチャイさんやナデラさんのようなインドっぽい発音でも、ザッカーバーグさんのような早口でもOK。

 ただし、弾丸トークのカーラ・スウィッシャー女史のポッドキャストのインタビューなどの場合は、複数の人が相手が話し終わらないうちにたたみかけるように話すし、強調するために文の途中で間を置くので、テキストは混沌としてしまいます。(間が空くと、そこで段落が切り替わったりします。)そういうのを聞き取るのは、まだ人間の方が得意かも。

 そうそう、レコーダーはいつの間にか、また賢くなっていました。最初に試したころはシステム全体の言語を英語にしておかないと、英語の音声を録音してもテキスト起こしはしてくれなかったのに、さっき日本語設定のまま英語の音声の録音を始めたら、自動的に英語だと判断してテキスト起こしを始めてくれたのですよ。

 これまでは、言語設定の切り替えが面倒で、設定のウィジェットを使っていましたが、不要になりました。GoogleのツールはGoogleマップとかもですが、いつの間にか少しずつ進歩していて気づくとずいぶん遠くまで来たなぁということになります。

 レコーダーで保存したテキストは数タップでGoogleドライブに転送できるので、ストレージがちょっと心細い64GBモデルの私はテキストだけ転送して、Pixel 4からは音声とテキストの両方をこまめに削除しています。テキストを読むのはPCの方が楽だし。

 10月の一連の決算発表では、プレスリリースベースで記事を書きながら電話会見を録音し、会見が終わったらテキストだけGoogleドライブに転送してGoogleドキュメントで開いてキーワード(Alphabetだったら「Pixel」とか)を検索して面白そうなところを記事に反映する、という使い方をさせてもらいました。

 text Googleの第3四半期の業績発表電話会見ではPixelという単語が10回出てきたな、と

 ついでにこのテキストをGoogle翻訳に放り込めばもっと簡単。ただし、今のところWebのGoogle翻訳が1度に翻訳できるのは5000文字までです。

 translate Google翻訳で1度に翻訳できるのは5000文字まで

 5000文字までです、って、もちろん人間はそんなに早く翻訳できませんから、十分です。しかもGoogle翻訳のレベルはどんどん上がっています。それに、AIはアホなスペルミスとか絶対しないし。便利になったなぁと思って使っているうちに、スペルミス連発のへっぽこ記者は、いつの間にかお払い箱になりそうです。まじで。

Copyright © ITmedia, Inc. All Rights Reserved.