Pixel 6の「日本語書き起こし」は仕事で使えるか 今できること、できないこと(2/4 ページ)
「音声からの日本語自動書き起こしがすごい」と言われるPixel 6。実際に仕事に使っている西田宗千佳さんの手応えは。
しかも、このデータはGoogleアカウントと連携させるとクラウドに保存できる。Wi-Fi環境下では自動的に、録音された音声データとテキストデータがGoogleアカウント側にアップロードされ、「recorder.google.com」にアクセスすることで、PCなど他のデバイスでも利用可能になる。
ここで重要なのは、テキストと音声の記録位置が「同期」していること。テキストで気になる部分をクリックすると、その時に話されていた内容が再生される。つまり、不完全でも確認がしやすくなっているのだ。
クラウド上にあるデータには基本的に、自分以外はアクセスすることができない仕組みだから、セキュリティ上の問題はほぼない。「共有」を選べば、リンクを知っている人にはその録音とテキストが見られるようにすることもできる。Googleドキュメントと同じ構造である。
こうした機能の有無は、仕事に使う上で特に重要だ。
一方、実際に取材の記録に使うと課題も見えてくる。それは「複数話者対応」だ。
Pixel 6の音声書き起こしは、現状「話者の違い」を認識しない。1人で話していようと、複数人で話していようと、1本のテキストになってしまうのだ。
自分の語りをテキストにする場合や、講演を書き起こすならまったく問題ない。だがインタビューや打ち合わせのように「掛け合い」だと困る。
話者の切れ目が分からないので内容を把握しづらくなるし、書き起こしの精度も落ちる。
そんなことから、「インタビューが見事にそのまま、手を入れずにテキストになって仕上がる」わけにはいかない。
そうすると結局、別途掛け合いの状況をメモしておき、Pixelでの録音と書き起こしテキストを「確認用」「参考用」に使うのがベスト、という結論になる。
他にも多数音声認識・書き起こしの機能はあり、Windows、macOS、iOSと、それぞれのOSが基本機能として搭載するようにもなってきた。単独のサービスやスマホアプリ、ソースネクストの「AutoMemo」のようなハードウェア製品もあるが、どれもまだ欠点がある。
現状、日本語での書き起こしではPixelがベストに近いと筆者は感じているが、「書き起こし」以外の使い勝手やノイズ耐性で加点されている部分が大きい。
逆に言えば、どの製品であっても「自分の1人語り」だと精度的な問題は少なくなっているので、口述筆記などなら満足感を得やすいレベルにはなっている、といえる。
筆者が満足できないのは、あくまで「インタビューの書き起こしにどうか」という観点でなので、その点留意が必要だ。
Copyright © ITmedia, Inc. All Rights Reserved.