「AIでPC操作」用の新モデル、国内スタートアップが開発 日本語特化、「Gmailを開いて返信を作成して」デモも

 AIスタートアップのカラクリ(東京都中央区)は7月9日、PCを自動で操作するAIエージェント「CUA」(Computer-Using Agent)向けのAIモデル「KARAKURI VL」を開発したと発表した。同社によると、日本企業として初めてCUA向けのモデルを開発したという。デモンストレーション動画では、日本語によるチャットの指示に従い、自動でGmailを開いてメールの返信文を作成する様子が確認できる。

メールを自動で返信、デモの様子はこちら

 CUAは、自然言語の指示により、PCを自動で操作するAIエージェント。米OpenAIの「Operator」や、米Anthropicの「Computer Use」などが知られており、開発競争が進んでいる。一方、カラクリによると、既存のCUA向けのAIモデルは全て海外企業が開発したもので、英語環境での利用が前提。特に縦書きと横書きが混在する日本語環境における文字認識精度や、日本語での指示理解・操作の実行性能などに問題があったという。

 そこでカラクリは、中国Alibabaの視覚言語モデル「Qwen2.5-VL」をベースに、日本語環境に特化したCUA向けのAIモデルであるKARAKURI VLを開発した。縦書きと横書きが併用される日本語UIの文字認識に対応しており、日本語のマニュアルやフローチャートの読解能力なども持つという。

 同モデルを活用したCUAは、日本のカスタマーサポート現場における業務の支援を想定している。問い合わせに対し、複数のシステムを操作し、マニュアルを参照して適切な回答を作成するという業務フローを自動化できるよう設計したという。

 カラクリが公開したCUAのデモ動画では、「Gmailを開いて、受信ボックスの中にある顧客からの返品についての最新のメールを探して返信文を作成してほしいです。顧客管理システムをメールアドレスで検索して、顧客の詳細ページから購入商品一覧を確認してください」といった指示に従い、メールを作成して送信する様子が見られる。

デモ動画の様子(画像は公式YouTubeの動画より引用、以下同)
指示に従い「顧客管理システム」を操作(1/2)
指示に従い「顧客管理システム」を操作(2/2)
メールを作成

 カラクリはKARAKURI VLについて、PCの操作権限を与えることによるリスクや、企業の独自ツールへの対応などの点で「まだ実用面での課題が多いのも事実」と説明する。今後は、ルールベースの行動制限と画像認識を組み合わせた安全対策や、企業固有の業務パターンに沿ったPC操作手順の学習などに取り組み、実用化を目指す。

 KARAKURI VLの開発は、経済産業省とNEDO(新エネルギー・産業技術総合開発機構)による国内のAI開発支援プロジェクト「GENIAC」第2期の一環。なお、同モデルは「対話型モデル」と、思考プロセスを残せる「推論モデル」の2つを提供しており、Hugging Faceにて公開している。どちらのラインセンスも商用利用可能なApache 2.0。

印刷する
SNSでシェア

関連記事

こんなメディアも見られています

ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。

メールマガジンを配信中
メールマガジンを配信中

国内外の業界動向、AIやクラウドなどの最新技術、キャリア情報など今知りたい情報をまとめてお届けします。

いますぐご登録

よく見られているカテゴリー

アクセスランキング

  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9. 9
  10. 10

SpecialPR

ITmedia AI+ SNS

X @itm_aiplusをフォロー

インフォメーション

ITmedia AI+をフォロー

あなたにおすすめの記事PR