「AIでPC操作」用の新モデル、国内スタートアップが開発 日本語特化、「Gmailを開いて返信を作成して」デモも
AIスタートアップのカラクリ(東京都中央区)は7月9日、PCを自動で操作するAIエージェント「CUA」(Computer-Using Agent)向けのAIモデル「KARAKURI VL」を開発したと発表した。同社によると、日本企業として初めてCUA向けのモデルを開発したという。デモンストレーション動画では、日本語によるチャットの指示に従い、自動でGmailを開いてメールの返信文を作成する様子が確認できる。
CUAは、自然言語の指示により、PCを自動で操作するAIエージェント。米OpenAIの「Operator」や、米Anthropicの「Computer Use」などが知られており、開発競争が進んでいる。一方、カラクリによると、既存のCUA向けのAIモデルは全て海外企業が開発したもので、英語環境での利用が前提。特に縦書きと横書きが混在する日本語環境における文字認識精度や、日本語での指示理解・操作の実行性能などに問題があったという。
そこでカラクリは、中国Alibabaの視覚言語モデル「Qwen2.5-VL」をベースに、日本語環境に特化したCUA向けのAIモデルであるKARAKURI VLを開発した。縦書きと横書きが併用される日本語UIの文字認識に対応しており、日本語のマニュアルやフローチャートの読解能力なども持つという。
同モデルを活用したCUAは、日本のカスタマーサポート現場における業務の支援を想定している。問い合わせに対し、複数のシステムを操作し、マニュアルを参照して適切な回答を作成するという業務フローを自動化できるよう設計したという。
カラクリが公開したCUAのデモ動画では、「Gmailを開いて、受信ボックスの中にある顧客からの返品についての最新のメールを探して返信文を作成してほしいです。顧客管理システムをメールアドレスで検索して、顧客の詳細ページから購入商品一覧を確認してください」といった指示に従い、メールを作成して送信する様子が見られる。
カラクリはKARAKURI VLについて、PCの操作権限を与えることによるリスクや、企業の独自ツールへの対応などの点で「まだ実用面での課題が多いのも事実」と説明する。今後は、ルールベースの行動制限と画像認識を組み合わせた安全対策や、企業固有の業務パターンに沿ったPC操作手順の学習などに取り組み、実用化を目指す。
KARAKURI VLの開発は、経済産業省とNEDO(新エネルギー・産業技術総合開発機構)による国内のAI開発支援プロジェクト「GENIAC」第2期の一環。なお、同モデルは「対話型モデル」と、思考プロセスを残せる「推論モデル」の2つを提供しており、Hugging Faceにて公開している。どちらのラインセンスも商用利用可能なApache 2.0。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
日立、Anthropicと提携 グループ29万人に「Claude」などAI導入 社会インフラ分野にも展開へ
-
2
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
3
伊藤忠商事や三菱ケミカルなど16社が参画 大手企業の「暗黙知」を活用する新プロジェクト
-
4
「AIデータセンターの電力需要が急増」はホント? 発電大手Jパワー社長が明かした“報道との温度差”
-
5
「家庭教師のトライ」が学力診断にAI活用 20問解くだけで弱点を推定 生徒と講師の負担減らす
-
6
みずほFGが実現 2週間かかるAIエージェント開発を最短数日にする仕組みとは?
-
7
「最新のAI創薬ラボ」なのに会議室みたい!? 製薬大手がラブコール送る“異色のAI企業”による新拠点とは
-
8
OpenAI、「ChatGPT」に個人向け資産管理機能 金融口座と連携
-
9
話題の「Claude Mythos」、なんて読む? 「ミトス」か「ミソス」か、はたまた「ミュトス」か
-
10
最新AI「Claude Mythos」がSFすぎる件 研究者の作った”牢”を脱出、悪用懸念で一般公開なし──まるで映画の序章
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR