「AIでPC操作」用の新モデル、国内スタートアップが開発 日本語特化、「Gmailを開いて返信を作成して」デモも
AIスタートアップのカラクリ(東京都中央区)は7月9日、PCを自動で操作するAIエージェント「CUA」(Computer-Using Agent)向けのAIモデル「KARAKURI VL」を開発したと発表した。同社によると、日本企業として初めてCUA向けのモデルを開発したという。デモンストレーション動画では、日本語によるチャットの指示に従い、自動でGmailを開いてメールの返信文を作成する様子が確認できる。
CUAは、自然言語の指示により、PCを自動で操作するAIエージェント。米OpenAIの「Operator」や、米Anthropicの「Computer Use」などが知られており、開発競争が進んでいる。一方、カラクリによると、既存のCUA向けのAIモデルは全て海外企業が開発したもので、英語環境での利用が前提。特に縦書きと横書きが混在する日本語環境における文字認識精度や、日本語での指示理解・操作の実行性能などに問題があったという。
そこでカラクリは、中国Alibabaの視覚言語モデル「Qwen2.5-VL」をベースに、日本語環境に特化したCUA向けのAIモデルであるKARAKURI VLを開発した。縦書きと横書きが併用される日本語UIの文字認識に対応しており、日本語のマニュアルやフローチャートの読解能力なども持つという。
同モデルを活用したCUAは、日本のカスタマーサポート現場における業務の支援を想定している。問い合わせに対し、複数のシステムを操作し、マニュアルを参照して適切な回答を作成するという業務フローを自動化できるよう設計したという。
カラクリが公開したCUAのデモ動画では、「Gmailを開いて、受信ボックスの中にある顧客からの返品についての最新のメールを探して返信文を作成してほしいです。顧客管理システムをメールアドレスで検索して、顧客の詳細ページから購入商品一覧を確認してください」といった指示に従い、メールを作成して送信する様子が見られる。
カラクリはKARAKURI VLについて、PCの操作権限を与えることによるリスクや、企業の独自ツールへの対応などの点で「まだ実用面での課題が多いのも事実」と説明する。今後は、ルールベースの行動制限と画像認識を組み合わせた安全対策や、企業固有の業務パターンに沿ったPC操作手順の学習などに取り組み、実用化を目指す。
KARAKURI VLの開発は、経済産業省とNEDO(新エネルギー・産業技術総合開発機構)による国内のAI開発支援プロジェクト「GENIAC」第2期の一環。なお、同モデルは「対話型モデル」と、思考プロセスを残せる「推論モデル」の2つを提供しており、Hugging Faceにて公開している。どちらのラインセンスも商用利用可能なApache 2.0。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
OpenAI、Anthropicが新会社設立 国内SIerは「黒船襲来」に対抗できるか?
-
2
「ハーネス」って結局、何? みんな使い方が違うAIエージェント用語をHugging Faceが整理
-
3
「FDE」って結局、客先常駐SEのリブランディングじゃないの? アクセンチュアに聞いてみた
-
4
富士通が認めた「人月モデル」の限界 時田社長「労働集約型SIモデルからの転換を」
-
5
生成AIを「悩み相談」に使う10代女性たち 阿部前監督事件を招いた「AI正論」の波紋
-
6
製造現場の「AIアレルギー」をどう払拭? 日立・新卒デジタル人材「3カ月奮闘記」
-
7
「お母さんには言わないで」──ChatGPTが自殺方法を指南→16歳の子供が死去 両親がOpenAIを提訴
-
8
日立はAnthropicと組んで何を狙うのか 従業員29万人へのClaude導入で目指す姿
-
9
“VB.NET移行をAIで爆速化”した千葉銀行GのIT企業 「12.5人月→2.0人月」をどう実現?
-
10
それで、メモリ不足はいつまで続くの? なかなか終わらない狂騒のウラ側
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR