AIスタートアップのカラクリ(東京都中央区)は7月9日、PCを自動で操作するAIエージェント「CUA」(Computer-Using Agent)向けのAIモデル「KARAKURI VL」を開発したと発表した。同社によると、日本企業として初めてCUA向けのモデルを開発したという。デモンストレーション動画では、日本語によるチャットの指示に従い、自動でGmailを開いてメールの返信文を作成する様子が確認できる。
CUAは、自然言語の指示により、PCを自動で操作するAIエージェント。米OpenAIの「Operator」や、米Anthropicの「Computer Use」などが知られており、開発競争が進んでいる。一方、カラクリによると、既存のCUA向けのAIモデルは全て海外企業が開発したもので、英語環境での利用が前提。特に縦書きと横書きが混在する日本語環境における文字認識精度や、日本語での指示理解・操作の実行性能などに問題があったという。
そこでカラクリは、中国Alibabaの視覚言語モデル「Qwen2.5-VL」をベースに、日本語環境に特化したCUA向けのAIモデルであるKARAKURI VLを開発した。縦書きと横書きが併用される日本語UIの文字認識に対応しており、日本語のマニュアルやフローチャートの読解能力なども持つという。
同モデルを活用したCUAは、日本のカスタマーサポート現場における業務の支援を想定している。問い合わせに対し、複数のシステムを操作し、マニュアルを参照して適切な回答を作成するという業務フローを自動化できるよう設計したという。
カラクリが公開したCUAのデモ動画では、「Gmailを開いて、受信ボックスの中にある顧客からの返品についての最新のメールを探して返信文を作成してほしいです。顧客管理システムをメールアドレスで検索して、顧客の詳細ページから購入商品一覧を確認してください」といった指示に従い、メールを作成して送信する様子が見られる。
カラクリはKARAKURI VLについて、PCの操作権限を与えることによるリスクや、企業の独自ツールへの対応などの点で「まだ実用面での課題が多いのも事実」と説明する。今後は、ルールベースの行動制限と画像認識を組み合わせた安全対策や、企業固有の業務パターンに沿ったPC操作手順の学習などに取り組み、実用化を目指す。
KARAKURI VLの開発は、経済産業省とNEDO(新エネルギー・産業技術総合開発機構)による国内のAI開発支援プロジェクト「GENIAC」第2期の一環。なお、同モデルは「対話型モデル」と、思考プロセスを残せる「推論モデル」の2つを提供しており、Hugging Faceにて公開している。どちらのラインセンスも商用利用可能なApache 2.0。
AI開発に“総額8億円”の懸賞金、NEDOが公募開始 国産モデルによる「AIエージェント」など3領域で
自身のコードを書き換え“成長するAI”――Sakana AI、新たなAIエージェント「DGM」発表
Sakana AI、生物の脳に“より近い”仕組みのAIモデル「CTM」発表 ニューロンが活動する「タイミング」を活用
“6分で分かる”ビジネスパーソン向け「AIエージェント入門資料」、パナソニックコネクトが公開
AIエディタ「Cursor」に、スマホ版が登場 Webブラウザ版も同時提供Copyright © ITmedia, Inc. All Rights Reserved.