iPhone 16とPixel 9で「文字起こし」の精度を比較 オンライン会議と騒がしいファミレスで試した結果
iPhoneで録音した音声を文字に起こしてくれる、いわゆる文字起こしの機能。文字起こしの機能では、Google Pixelが先行しているが、iPhoneもようやく追随した。β版のiOS 18.4で比較検証した。
iPhoneで録音した音声を文字に起こしてくれる、いわゆる文字起こしの機能。録音したものをいったん保存した後、「Speechy」というアプリにデータを移行し、音声をテキストに変換する作業を行う方法はあるが、1つのアプリで完結できないゆえに面倒だ。
文字起こしの機能では、Google Pixelが先行しているが、iPhoneもようやく追随した。Appleが開発者向けに配信しているβ版の「iOS 18.4」では、「ボイスメモ」という標準搭載アプリで、録音から文字起こしまでを完結できるようになった。それも日本語でだ。
正式なアップデートは、Apple独自開発の生成AIサービス「Apple Intelligence」が日本語対応を果たす4月だが、それを待たずにβ版のiOS 18.4を手元のiPhone 16にインストールし、Pixel 9と文字起こしの精度を比較する。
iPhone 16では「ボイスメモ」、Pixel 9では「レコーダー」というアプリで録音/文字起こしを行う。iPhoneでもついに日本語での文字起こしが可能になった。録音ボタンの左側のボタンをタップすると、文字起こしの結果が表示される
オンライン取材で精度を確認 どちらも全体の内容は把握できる
まず、オンライン取材時に両モデルをPCのスピーカーのそばに置き、文字起こしの精度を確認した。テスト環境は、お互いが静かな場所にいる状態で、周囲に他の人の会話やBGM、車の音などがなく、会話が阻害されないように配慮した。
実際に会話の内容を丸ごと録音してみると、「iPhoneがテーマの会話」であることはどちらのモデルも正しく認識できた。しかし、「iPhone 13 mini」「iPhone 12 mini」などの固有名詞については、Pixel 9の方がほぼ正確に文字起こしできていた。
会話が進むにつれて、iPhone 16の文字起こしには誤字や脱字が目立つようになった。例えば、「iPhone SE(第2世代)はどれくらいの期間、売れていたのか?」という質問に対する回答が、「正確なところは〜」とやや曖昧なコメントから始まっていることは分かる。しかし、iPhone 16では「正確」という言葉が「性格」と誤変換されてしまったのに対し、Pixel 9では「正確」と正しく表記されていた。
ただ、全体を通して見たときに、本来の内容から懸け離れた結果だとはいえない。少なくとも、音声を聞きながら内容を見返していけば、所々に正しくない表記があっても、全体の内容を把握することはどちらも可能だ。
あえて騒がしい環境で検証 どちらも静かな場所より厳しい結果に
では、オンラインではなく、現地でPCのスピーカーを介さずにマンツーマンで会話した内容は、どちらが正確に文字起こしするのだろうか? こちらも気になるので都内近郊のファミリーレストランへ出向いて確認した。前提として、客足が増える19〜21時台の時間帯に入店し、かなり騒がしい環境で試した。
会話の主な内容は記事の企画だ。結論からいえば、ほぼ全ての会話を文字起こしできたのはPixel 9だ。先ほどのオンライン環境とは打って変わって、iPhone 16は全体の内容すら把握しづらく、会話のほとんどの内容を文字起こしできていない。
ただ、Pixel 9もiPhone 16ほどではないものの、ところどころで内容が抜けてしまうことがあった。「次に企画している記事に今月(2025年3月)に発売された端末を含めるかどうか」という議題では、発言したはずの「Xiaomi 15 Ultra」が文字起こしの結果に含まれていない。
Pixel 9の文字起こしにはXiaomi 15 Ultraと正しく記載されていなかったものの、「15Uロト」という珍しい変換結果が残っていた。一方、iPhone 16では録音自体はできているものの、Xiaomi 15 Ultraという製品名はもちろん、そもそも「どの端末の情報を記事に反映するか」という議題そのものが抜け落ちていた。そのため、文字起こしの結果だけでは会話の内容を正しく把握することができなかった。
また、Xiaomiというメーカー名を認識しづらいのか、Pixel 9では片仮名表記の「シャオミ」となる。これ自体は問題ないが、原稿では片仮名ではなくアルファベットで表記しなければならないルールがある筆者にとっては、後から全てアルファベット表記に統一する手間が発生する(とはいえ、会話の内容を把握する上では問題ない)。
せっかくの検証なので、モバイル業界の専門用語だけでなく、芸能人や著名人の文字起こし精度はどうかも確認した。試しに、大谷翔平さん、木村拓哉さん、香取慎吾さん……と発言してみたところ、今度はiPhone 16が正確に文字起こしできたが、Pixel 9ではなぜか木村拓哉さんだけが省かれた。
モバイル業界の話題では、ソフトバンクの宮川潤一社長、KDDIの高橋誠社長の名前も発言してみたところ、iPhone 16は高橋誠社長を拾いきれず、Pixel 9では高橋誠社長を文字起こしできたものの、宮川潤一社長の漢字を「潤」ではなく「純」と誤った。
iPhoneとPixelの共通点は? どちらが扱いやすい?
両モデルの共通点として、どちらもリアルタイムでの文字起こしに対応している点が挙げられる。再生中の部分がハイライト表示されるため、録音した内容を後から確認しやすく、必要な情報を素早く見つけることができる。録音した音声や文字起こしのデータを他の人と共有できる点も共通点だ。
一方、録音した音声と文字起こしのデータをクラウドにアップロードし、大画面のPCやタブレットからでも確認しやすいのはPixelだ。事前設定は必要だが、録音を終えた後、「recorder.google.com」に同期されるため、他のクラウドストレージサービスや外部メモリに頼らずに済む。これを知っておくととても便利だ。
重要な会見や会議、商談などの内容を録音したにもかかわらず、聞き返さない人はほとんどいないだろう。後から振り返るという点では、Pixelの方が便利であり、何より文字起こしの精度においても、一歩どころか二歩、三歩先を行っている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
iPhoneの使い方が劇的に変わる? 日本語対応した「Apple Intelligence」を試す
Appleが独自に開発した生成AIサービスの「Apple Intelligence」が、4月から日本語に対応する。iPhone 16シリーズは「Apple Intelligenceのために設計されたiPhone」とうたっているだけに、ついにその本領を発揮するときが来た。開発者向けβ版の「iOS 18.4」でその実力を試した。
Pixelの「音声+文字起こし」データをPCで確認する方法 他のユーザーに共有はできる?
Google Pixelシリーズの代名詞となった「レコーダー」の文字起こし。これをPCから確認する簡単な方法について紹介する。PCから他の人に共有する方法も紹介する。
Pixelの「レコーダー」アプリで“文字起こし”を利用する方法 議事録として活用できる
音声を文字に起こしてくれる、いわゆる“文字起こし”の機能。Pixelシリーズで使える。レコーダーの基本的な使い方を解説する。
折りたたみスマホ「Google Pixel Fold」がとある取材で大活躍したハナシ
Googleの折りたたみスマートフォン「Google Pixel Fold」。折りたたみ端末ならではのメリットをどのように享受できたのか。今回のふぉーんなハナシでは取材時の体験談を踏まえてお届けしたい。
文字起こしができるボイスレコーダー「AutoMemo S」発表 画面付きで確認しやすく
ソースネクストは12月9日、AIボイスレコーダーの新モデル「AutoMemo(オートメモ) S」を発表した。価格は2万4800円(税込み)で、2022年1月21日に発売する。新モデルでは2.83型のディスプレイを搭載し、文字起こしした内容をレコーダー本体で確認できるようにした。