Codex、「Computer Use」とリモート操作がWindowsに対応/GoogleがミッドサイズLLM「Gemma 4 12B」公開週末の「気になるニュース」一気読み!(1/3 ページ)

» 2026年06月07日 06時00分 公開
[山本竜也ITmedia]

 うっかり見逃していたけれど、ちょっと気になる――そんなニュースを週末に“一気読み”する連載。今回は、5月31日週を中心に公開された主なニュースを一気にチェックしましょう!

Codex、「Computer Use」とリモート操作がWindowsに対応

 OpenAIは5月29日、Windows向け「Codex」アプリをバージョン26.527に更新した。この更新で、PC操作機能「Computer Use」がWindowsで動作するようになった。

photo WindowsのCodexアプリでComputer Useが利用可能に

 Computer Useにより、Codexは作業中にWindowsデスクトップアプリをフォアグラウンドで操作し、画面を見ながらクリックやタイピングを行えるという。

 あわせてリモートコントロール機能もWindowsに対応した。iOS/AndroidのChatGPTアプリや、Codexを動かしているMacから、Windowsデバイス上のCodexにタスクを送信して進捗を遠隔で確認できる。

 その他の変更点としては、プロフィールセクションがプロフィール詳細/利用統計/トークン使用状況の表示に対応した。ローカルプロジェクトおよびワークツリー向けのスレッド調整が加わり、明示的に指定した場合はバックグラウンドで別スレッドを走らせられる。

 過去のCodexアプリスレッドの検索が会話内容とGitブランチ名にも広がった他、バックグラウンドのサブエージェント用に固定のアイデンティコン表示、キーボードショートカット設定でのキー押下による検索と全リセット、Google Docs/Sheets/Slidesタブを対象としたChromeコンテキスト取得の改善などが盛り込まれている。

GoogleがLLM「Gemma 4 12B」を公開

 Googleは6月3日、オープンモデル「Gemma 4」ファミリーの新モデル「Gemma 4 12B」を公開した。エッジ向けの「E4B」と上位の「26B MoE」モデルの中間に位置するミッドサイズモデルで、16GBのVRAMまたはユニファイドメモリを備えたコンシューマー向けノートPCでローカルで動作する。ライセンスはApache 2.0で、ウェイトはHugging FaceとKaggleで配布される。

photo GoogleがGemma 4 12Bを公開した

 従来のマルチモーダルモデルは、画像や音声を専用のエンコーダーを通じて言語モデルに渡す構成を採るのが一般的だが、Gemma 4 12Bは専用エンコーダーを設けず、視覚と音声の入力を直接LLMバックボーンに流し込むエンコーダーフリー構成を採用している。Googleによれば、分離型エンコーダー由来のレイテンシとメモリ消費を抑えることが狙いだという。

 具体的な実装として、視覚側はGemma 4のビジョンエンコーダーを、単一の行列積、位置埋め込み、正規化からなる軽量な埋め込みモジュールに置き換え、視覚処理そのものをLLMバックボーンに任せる。

 音声側はエンコーダー自体を撤去し、生の音声信号をテキストトークンと同じ次元空間に射影する形に簡素化した。Gemma 4 12Bは、ミッドサイズのGemma 4で音声をネイティブ入力として扱う初のモデルになるとのことだ。

 性能面では、メモリ消費が26B MoEモデルの半分未満ながら、標準的なベンチマークで同モデルに迫るスコアを示すとしている。あわせて、推論レイテンシを下げるためのMulti-Token Prediction(MTP)ドラフタも備える。

 なお、Googleは、Gemma 4ファミリー全体のダウンロード数が累計1億5000万件を超えたことも明らかにしている。

       1|2|3 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

最新トピックスPR

過去記事カレンダー