うっかり見逃していたけれど、ちょっと気になる――そんなニュースを週末に“一気読み”する連載。今回は、5月31日週を中心に公開された主なニュースを一気にチェックしましょう!
OpenAIは5月29日、Windows向け「Codex」アプリをバージョン26.527に更新した。この更新で、PC操作機能「Computer Use」がWindowsで動作するようになった。
Computer Useにより、Codexは作業中にWindowsデスクトップアプリをフォアグラウンドで操作し、画面を見ながらクリックやタイピングを行えるという。
あわせてリモートコントロール機能もWindowsに対応した。iOS/AndroidのChatGPTアプリや、Codexを動かしているMacから、Windowsデバイス上のCodexにタスクを送信して進捗を遠隔で確認できる。
その他の変更点としては、プロフィールセクションがプロフィール詳細/利用統計/トークン使用状況の表示に対応した。ローカルプロジェクトおよびワークツリー向けのスレッド調整が加わり、明示的に指定した場合はバックグラウンドで別スレッドを走らせられる。
過去のCodexアプリスレッドの検索が会話内容とGitブランチ名にも広がった他、バックグラウンドのサブエージェント用に固定のアイデンティコン表示、キーボードショートカット設定でのキー押下による検索と全リセット、Google Docs/Sheets/Slidesタブを対象としたChromeコンテキスト取得の改善などが盛り込まれている。
Googleは6月3日、オープンモデル「Gemma 4」ファミリーの新モデル「Gemma 4 12B」を公開した。エッジ向けの「E4B」と上位の「26B MoE」モデルの中間に位置するミッドサイズモデルで、16GBのVRAMまたはユニファイドメモリを備えたコンシューマー向けノートPCでローカルで動作する。ライセンスはApache 2.0で、ウェイトはHugging FaceとKaggleで配布される。
従来のマルチモーダルモデルは、画像や音声を専用のエンコーダーを通じて言語モデルに渡す構成を採るのが一般的だが、Gemma 4 12Bは専用エンコーダーを設けず、視覚と音声の入力を直接LLMバックボーンに流し込むエンコーダーフリー構成を採用している。Googleによれば、分離型エンコーダー由来のレイテンシとメモリ消費を抑えることが狙いだという。
具体的な実装として、視覚側はGemma 4のビジョンエンコーダーを、単一の行列積、位置埋め込み、正規化からなる軽量な埋め込みモジュールに置き換え、視覚処理そのものをLLMバックボーンに任せる。
音声側はエンコーダー自体を撤去し、生の音声信号をテキストトークンと同じ次元空間に射影する形に簡素化した。Gemma 4 12Bは、ミッドサイズのGemma 4で音声をネイティブ入力として扱う初のモデルになるとのことだ。
性能面では、メモリ消費が26B MoEモデルの半分未満ながら、標準的なベンチマークで同モデルに迫るスコアを示すとしている。あわせて、推論レイテンシを下げるためのMulti-Token Prediction(MTP)ドラフタも備える。
なお、Googleは、Gemma 4ファミリー全体のダウンロード数が累計1億5000万件を超えたことも明らかにしている。
台北で「AI Together」! PC&AIの見本市「COMPUTEX TAIPEI 2026」いよいよ開幕 一般公開日は最終日の5日
コンパクトボディーにスパコン並みのAI性能! 「NVIDIA RTX Spark」搭載ミニデスクトップPCを見てきた
「DGX Station for Windows」搭載PCってどんな感じ? NVIDIAの展示会場で見てきた
超大画面ディスプレイを持ち運べるスマートグラス「VITURE Beast」を2週間使って分かったこと
まるで戦闘機みたいなPCケースから“魅せる”電源まで! CORSAIRの最新パーツは遊び心が満載Copyright © ITmedia, Inc. All Rights Reserved.