レビュー
» 2021年11月01日 20時00分 公開

独自プロセッサ×音声認識が“文字起こし”に革命を? 「Pixel 6 Pro」全力レビュー(後編)(1/3 ページ)

Googleのオリジナルスマートフォン「Pixel 6 Pro」は、独自プロセッサ「Google Tensor」を搭載している。これが、機械学習ベースのAI処理に大きな改善をもたらしており、カメラの画像処理だけでなく音声認識処理で大活躍する。普段使いのスマホとしての利便性と合わせてチェックしていこう。

[石井徹,ITmedia]

 Googleは10月28日、フラグシップスマートフォン「Pixel 6シリーズ」を発売する。Google Store(Web直販)における税込み販売価格は、「Pixel 6」は7万4800円から、「Pixel 6 Pro」は11万6600円からとなっている。

 今回、シリーズの上位モデルであるPixel 6 Proを一足早く試す機会を得た。1週間ほど試用した上での感触を2回に分けて紹介する。後編では、独自プロセッサ「Google Tensor」のパワーを体感しやすい音声認識関連の機能をチェックしつつ、“Androidスマホ”としてのPixel 6 Proの実像に迫っていく。

Pixel 6 Pro Pixel 6 Pro

Tensorを生かした自然言語処理がもたらす利便性

 Tensorが実現した高いAI処理パフォーマンスは、自然言語処理をこれまでにないほどに実用的なものとした。

 自然言語処理は敷居が高そうに思えるが、現代のスマホでは至る所で使われている。例えば「Googleアシスタント」が言葉を聞き取って文字に起こし、指示の中身を解釈するという一連の流れには、全て自然言語処理が関わっている。

 従来は、このような処理をクラウド(インターネット上のサーバ)を介して行うことが一般的だった。それに対して、Tensorはこれらの処理をオンデバイス、つまりクラウドに依存せずに自力で行える能力を備える。しかも、処理にかかる消費電力は従来モデルの半分に抑えているという。

 オンデバイス処理の速さは、音声認識にまつわるさまざまな機能の使い勝手を向上している。今回は、筆者が特に有用だと感じたものをいくつか紹介する。

日本語に対応した「レコーダー」の文字起こし

 Pixelシリーズにプリインストールされている「レコーダー」アプリは、音声をテキスト化する「自動音声文字変換」、平たくいうと「文字起こし」機能を備えている。しかし、文字に起こせる言語は限られており、従来は日本語に対応していなかった。

 Pixel 6シリーズにプリインストールされているレコーダーアプリでは、ついに日本語の文字起こしに対応した。加えて、Tensorによるオンデバイス処理にも対応し、機内モード(オフライン)状態でも文字を起こせるようになった。

 筆者はこれまで、クラウド上で動作する日本語の文字起こしツールをいくつか試してきた。しかし、話し言葉から文意が伝わる程度の文字起こしを行うのは、かなり難しいと感じていた。

 ところが、Pixel 6シリーズのレコーダーアプリでは、速すぎない普通の会話であれば、難なく読める精度でテキスト化できる。これまでの文字起こしツールにおいて“難関”だった適切な位置への句読点の挿入も実現している。

 さすがに同音異義語や固有名詞は読み違えることもあるが、それでも意味をつかめる精度で書き出せるのは見事である。月額数千円から数万円するクラウド型の文字起こしツールの存在を脅かすレベルといえるかもしれない。

文字起こし レコーダーアプリの文字起こし機能が日本語に対応した。Pixel 6シリーズであればオンデバイス処理で文字を起こしてくれる

レスポンスの良い「リアルタイム翻訳」

 「Google翻訳」アプリのリアルタイム翻訳も、Pixel 6シリーズなら最大限のパフォーマンスを発揮できる。

 このアプリには2カ国語を認識して双方向翻訳する「会話モード」があるのだが、Pixel 6シリーズであれば実用性が増す。早口で話しても2〜3秒で音声を認識し、会話にほぼ支障ない速度で翻訳を返してくれるのだ。

 翻訳の精度も、旅行で話し相手に意図を伝える程度ならほぼ問題ない。ホテルや観光案内で質問する程度であれば、ほぼ支障なく会話できるだろう。

 一方、ニュースの文章を読んでみると、専門用語や固有名詞を聞き取れずに誤訳することもある。それでも、正しく聞き取れたフレーズは、おおむね適切に翻訳してくれる。海外の英語ニュースのお供として役立ちそうだ。

 なお、会話モードの利用には通信が必須だ。ただし、事前に各言語の翻訳データをダウンロードしておけば、翻訳時に発生する通信量を抑えられる。

Google翻訳の会話モード。このレスポンスの良さなら旅先で知らない相手に使っても戸惑わせることはなさそうだ

何気に便利な「自動字幕起こし」

 Androidのアクセシビリティ機能の1つである「自動字幕起こし機能」も、Pixel 6シリーズであれば実用的に使える。

 その名の通り、この機能は動画の字幕を自動生成してくれるという機能で、日本語を含む5言語に対応している。スマホ上で再生されるほぼ全ての動画に対応しており、再生状況に合わせて字幕を表示してくれる便利な機能だ。

 文字起こしの精度は、現在「YouTube」で使われている字幕自動生成機能よりも高い。専門用語なども、ある程度認識してくれる。YouTubeには早口でしゃべる動画も多いが、そういったものでも大意を把握できる程度の精度で文字起こしをしてくれる。

自動字幕起こし 自動字幕起こし機能は日本語、英語、イタリア語、フランス語、ドイツ語の聞き取りと翻訳に対応する

 この機能において何より便利なのは、リアルタイムで字幕を生成しつつ、翻訳する機能である。日本語の字幕がない動画でも、起こした文章をそのまま日本語に訳して読めてしまうのだ。試しにPixel 6シリーズの発表動画を自動文字起こし機能を使って見てみたが、英語での説明と齟齬(そご)がなく、話している内容をほぼそのまま理解することができた。

Twitterアプリで字幕起こし Twitterのツイートに添付された動画をリアルタイムで文字起こし。文字起こしと同時に翻訳することも可能だ

「Gboard」の音声入力もより実用的に

 Googleのキーボード(文字入力システム)アプリ「Gboard」の音声入力にも細かな改良点がある。

 まず入力内容を音声入力の途中で修正できるようになった。長文の入力中に修正したい部分が出てきた場合は、その部分を選択した上で話し直せばよい。

 また「○○の絵文字」と話しかけることで一部の絵文字を入力できるようになった。例えば「ハートの絵文字」と話しかければハートの絵文字が入力される。

音声入力も軽快なレスポンスで使える

Android 12の“自分らしさ”も心地よい

 Android 12では、ユーザーインターフェイス(UI)が大きく見直された。Googleではこれを「Material You」と呼んでいる。

 ……と、詳しい人はすぐに気付くかもしれないが、このMaterial Youは従来の「Material Design」の延長線にある。基本的な操作は変えずに、より細かいところに手が届くように改良したものだと理解すればいい。

新UI 「Material You」によりUIがブラッシュアップされた

 Material Youでは、スマホを自分らしくアレンジできるように工夫されている。

 使い方は難しくない。まず、自分の好きな壁紙を設定する。すると、その色合いから複数の「カラーパターン」が自動生成される。その中から1つを選ぶと、そのカラーパターンがホーム画面やメニュー項目、通知エリアなど端末全体に反映できる。

 色をカスタマイズできるようになったというだけだが、「自分にあわせた色を使える」というのは、想像以上に心地良い体験だった。

カラーパターン自動生成 壁紙に沿ったテーマカラーを提案する機能を搭載。自分でダウンロードした壁紙でも有効だ
カラー 選択したテーマカラーは、操作体系の至るところで使われる

スマートデバイスの連携も改善

 Android 12では「Googleアシスタント」と「Google Home」に対応するデバイスとの連携機能も強化されている。Google Homeアプリで登録してあるスマートデバイスの操作を音声入力で行えるようになったのだ。

 例えば、Android TVの電源を付けたい場合は「ヘイグーグル、テレビを付けて」と話しかければよい。逆に「ヘイグーグル、テレビを消して」と話しかければ電源が切れるかスリープモードに入る。自宅内に複数のAndroid TVがある場合は、「テレビ」の部分を設定してあるデバイス名に置き換えて話しかければOKだ。スマートライトも同じ方法で点灯/消灯できる。

 この音声認識において、Pixel 6シリーズにおける認識精度の高さは役に立つ。

アシスタント ホーム画面のツールバーからスマート家電を操作できるようになった

 Android 12では、通知パネルからスマートデバイスの操作を行えるようになった。Google Homeアプリから目的の機器を探して操作する導線は意外と煩雑だが、通知パネルにデバイスのショートカットを入れておけば、もう操作に迷うことはないだろう。

       1|2|3 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

過去記事カレンダー