メディア
ITmedia AI+ >

まだ早い? 意外と便利? Pixel 9 Pro とGeminiで試す、生成AI時代のスマホアシスタントの“現在地”(3/5 ページ)

» 2024年10月06日 16時00分 公開
[山川晶之ITmedia]

「マルチモーダル」でできること

 Geminiは「マルチモーダル」も特徴だ。文字以外の画像・音声も処理できるもので、写真や画像に何が写っているかを認識したうえでいろいろと質問できる。例えば海外で、現地語で書かれたレストランのメニューを撮影し、どういう料理が載っており、食事マナーやオーダーの仕方はどうすれば良いか、メニューを翻訳アプリで読み取って検索して〜をすっ飛ばして直接聞ける。

 Geminiと会話できる「Gemini Live」も提供がはじまった。9月26日にローンチしたChatGPTの音声会話機能と同じようなもので、話し言葉でラフにGeminiと会話することができる。Geminiでも音声入力と読み上げ機能はあるが、Liveはもっと人と喋っているように会話できる。もともと「Gemini Advanced」という月額2900円のプラン限定の機能だったが、先日無料ユーザーにも開放された。執筆中にサービス内容がころころ変わるのもAI業界ならではだ。

音声会話機能「Gemini Live」は英語のみ

 Gemini Advancedは、OpenAIの「ChatGPT Plus」に相当するもので、100万トークンを一度に処理できるGoogle最高性能のAIモデル「Gemini 1.5 Pro」にアクセスできる。ただ、AIアシスタント的な使い方だと通常のGeminiとあまり違いはなく、もっぱらPCで膨大な資料を要約・分析させたり、コーティングを手伝ってもらったりと、ヘビーな作業でないと本領発揮しない。Pixel 9 Pro/9 Pro XL/9 Pro Foldなら半年無料なので、スマートフォンでもPCでも、パワフルなAIを使いたい人は選択肢に入れて良いだろう。2TBストレージも使える。

Pixel 9 Pro/Pro XL/Pro Foldなら、一番左の「AIプレミアムプラン」が半年無料になる。2TBのストレージも付くぞ

日本語はおあずけ!

 ただ、Gemini Liveは現時点で「英語のみ」。日本でも使えるが、アプリの言語設定を英語に変えて、英語で会話する必要がある。しかも若干不安定で、途中から日本語で返答することが何度かあった。「日本語喋れるんかい!」と突っ込みたくなるが、設定の関係で日本語で返しても認識せず、英語で返答すれば元に戻る……という感じだ。

 Pixel 9シリーズが発売されてから1カ月以上経つが、Liveがいつ日本語に対応するのかは不明。ChatGPTの音声会話モードがすでに流暢な日本語を話しているのを見てしまうと、Googleが“追いかける側”なのを痛感する。

 「おま国」はLiveだけじゃない。Pixel 9シリーズには、Google系列のAI研究企業「Google DeepMind」も開発に参加した独自チップ「Tensor G4」が搭載されている。TPUを強化しており、軽量ながら画像・音声が扱えるマルチモーダルAIモデル「Gemini Nano」をオンデバイスで動かせるパワーがある。Gemini Nanoは、電話の会話内容を要約する「Call Notes」や、内容に応じて自動分類し、スクリーンショットを検索できるようにする「Pixel Screenshot」に使われているのだが、いずれも執筆時点では日本語で使えない。

 これはGoogleだけの話ではなく、生成AIサービス全般に言えるもので、まず英語でサービスインした後、時間をかけて他言語に展開することが多い。LLMの開発でも、学習データの質や量で日本語は英語と開きがあり、チューニングに時間をかけて世界で同時展開するよりも、他社に先行してサービスをリリースするほうが重要という経営判断もあるだろう。

 特に、オンデバイスAIをSoC単体で動かすのはかなりの重荷で、日本語で安全かつ十分なパフォーマンスを出すには相応のチューニングは避けられない。つまり、PixelがアピールするAI機能の多くは日本ではまだ「おあずけ」状態だ。Appleが「Apple Intelligence」の日本語対応を25年以降にしているのも同じ理由だろう。

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ