「AIでPC操作」用の新モデル、国内スタートアップが開発 日本語特化、「Gmailを開いて返信を作成して」デモも
AIスタートアップのカラクリは、PCを自動で操作するAIエージェント「CUA」向けのAIモデル「KARAKURI VL」を開発したと発表した。デモンストレーション動画では、日本語によるチャットの指示に従い、自動でGmailを開いてメールの返信文を作成する様子が確認できる。
AIスタートアップのカラクリ(東京都中央区)は7月9日、PCを自動で操作するAIエージェント「CUA」(Computer-Using Agent)向けのAIモデル「KARAKURI VL」を開発したと発表した。同社によると、日本企業として初めてCUA向けのモデルを開発したという。デモンストレーション動画では、日本語によるチャットの指示に従い、自動でGmailを開いてメールの返信文を作成する様子が確認できる。
CUAは、自然言語の指示により、PCを自動で操作するAIエージェント。米OpenAIの「Operator」や、米Anthropicの「Computer Use」などが知られており、開発競争が進んでいる。一方、カラクリによると、既存のCUA向けのAIモデルは全て海外企業が開発したもので、英語環境での利用が前提。特に縦書きと横書きが混在する日本語環境における文字認識精度や、日本語での指示理解・操作の実行性能などに問題があったという。
そこでカラクリは、中国Alibabaの視覚言語モデル「Qwen2.5-VL」をベースに、日本語環境に特化したCUA向けのAIモデルであるKARAKURI VLを開発した。縦書きと横書きが併用される日本語UIの文字認識に対応しており、日本語のマニュアルやフローチャートの読解能力なども持つという。
同モデルを活用したCUAは、日本のカスタマーサポート現場における業務の支援を想定している。問い合わせに対し、複数のシステムを操作し、マニュアルを参照して適切な回答を作成するという業務フローを自動化できるよう設計したという。
カラクリが公開したCUAのデモ動画では、「Gmailを開いて、受信ボックスの中にある顧客からの返品についての最新のメールを探して返信文を作成してほしいです。顧客管理システムをメールアドレスで検索して、顧客の詳細ページから購入商品一覧を確認してください」といった指示に従い、メールを作成して送信する様子が見られる。
カラクリはKARAKURI VLについて、PCの操作権限を与えることによるリスクや、企業の独自ツールへの対応などの点で「まだ実用面での課題が多いのも事実」と説明する。今後は、ルールベースの行動制限と画像認識を組み合わせた安全対策や、企業固有の業務パターンに沿ったPC操作手順の学習などに取り組み、実用化を目指す。
KARAKURI VLの開発は、経済産業省とNEDO(新エネルギー・産業技術総合開発機構)による国内のAI開発支援プロジェクト「GENIAC」第2期の一環。なお、同モデルは「対話型モデル」と、思考プロセスを残せる「推論モデル」の2つを提供しており、Hugging Faceにて公開している。どちらのラインセンスも商用利用可能なApache 2.0。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
AI開発に“総額8億円”の懸賞金、NEDOが公募開始 国産モデルによる「AIエージェント」など3領域で
新エネルギー・産業技術総合開発機構(NEDO)は、生成AIに関する技術開発コンテストの公募を始めた。懸賞金として最大総額8億円を用意し、国産基盤モデルを活用したAIエージェント開発など、3領域(4テーマ)を募集する。
自身のコードを書き換え“成長するAI”――Sakana AI、新たなAIエージェント「DGM」発表
Sakana AIは、自身のコードを書き換えて性能を高めるコーディング向けAIエージェント「ダーウィン・ゲーデル・マシン」を発表した。自身のコードを読み取り、修正することで、コーディング性能を高められるという。
Sakana AI、生物の脳に“より近い”仕組みのAIモデル「CTM」発表 ニューロンが活動する「タイミング」を活用
Sakana AIは、従来のAIモデルに比べ、生物の脳に“より近い”仕組みのAIモデル「Continuous Thought Machine」を発表した。生物の脳の神経細胞「ニューロン」がいつ活動するのかを示す「タイミング情報」に着目して開発したという。
“6分で分かる”ビジネスパーソン向け「AIエージェント入門資料」、パナソニックコネクトが公開
パナソニックコネクトは、「6分でわかるビジネスパーソンのためのやさしいAIエージェント入門」と題した資料を公開した。AIエージェントの特長や仕組みなどを、全24枚のスライドで解説している。
AIエディタ「Cursor」に、スマホ版が登場 Webブラウザ版も同時提供
AIエディタ「Cursor」を開発する米Anysphereは、同エディタのモバイル版の提供を始めた。あわせて、Webブラウザにも対応。自然言語の指示によるコードの生成や修正などの機能を、モバイル環境でも使えるようにする。



