Google、推論の深さを制御する「thinking levels」搭載の「Gemini 3.1 Flash-Lite」リリース

Googleは、Gemini 3シリーズ最速の「Gemini 3.1 Flash-Lite」をリリースした。「Gemini 2.5 Flash」と比較して出力が2.5倍高速化し、ベンチマークでもそれを上回る性能を達成。タスクに応じた推論の深さを制御できる「thinking levels」も搭載し、大量翻訳から高度なSaaSエージェントまで幅広い用途に対応するとしている。

[ITmedia] PC用表示関連情報

LINE

Hatena

　米Googleは3月3日（現地時間）、「Gemini 3」シリーズ中で最も高速かつコストパフォーマンスに優れたAIモデルとして「Gemini 3.1 Flash-Lite」をリリースした。現在、プレビュー版として提供が開始されており、開発者は「Google AI Studio」の「Gemini API」を通じて、企業ユーザーは「Vertex AI」を通じてアクセス可能だ。

（画像：Google）

　利用料金は入力100万トークン当たり0.25ドル、出力100万トークン当たり1.50ドルと、「Gemini 2.5 Flash-Lite」からは上がっているものの比較的安価に設定されており、大規模で高頻度な処理が求められる開発者のワークロード向けに構築されている。

速度と価格比較（画像：Google）

　性能面では、前世代からスピードアップし、品質の向上も図られている。昨年4月リリースの「Gemini 2.5 Flash」との比較では、最初の回答トークンが出力されるまでの時間が2.5倍高速化し、全体の出力速度も45％向上したという。同クラスの競合モデルと比較したベンチマークテストでも、推論とマルチモーダル理解能力で高い結果を示しており、「Arena.ai Leaderboard」で1432のEloスコアを獲得したほか、「GPQA Diamond」で86.9％、「MMMU Pro」で76.8％を記録し、旧世代のより大規模なモデルであるGemini 2.5 Flashを上回る性能を発揮している。

各種ベンチマーク結果（画像：Google）

　AI StudioおよびVertex AIでの利用時には、タスクに応じてモデルの推論の深さを制御できる「thinking levels」機能が標準で提供される。この低遅延と柔軟な制御能力により、大量の翻訳や画像等のコンテンツモデレーションのようなコスト重視のタスクから、動的なリアルタイムダッシュボードの生成、多様なステップをこなすSaaSエージェントの構築などの高度な推論が求められる複雑なタスクまで、スケールに合わせて幅広く対応できるとしている。

Google、推論の深さを制御する「thinking levels」搭載の「Gemini 3.1 Flash-Lite」リリース

関連記事

関連リンク