AIに売店の経営を任せたらどうなるのか――AI開発企業の米Anthropicは6月27日(現地時間)、このような実験の結果を公開した。AIモデル「Claude Sonnet 3.7」をベースとしたAIエージェント「Claudius」が、同社のオフィスにある無人店舗を約1カ月間運営。顧客の要望に応えようとして、原価より低い価格で商品を販売するなど複数のミスを犯したという。
実験には、AIの安全性を評価する米Andon Labsが協力した。Claudiusには、在庫管理や商品の価格設定など、利益を上げるために必要な複数のタスクをこなすよう指示。販売する商品をWebで調べる機能や、価格を自由に設定できる機能、Andon Labsの従業員に在庫の補充を依頼する機能などを追加した。顧客であるAnthropicの従業員とSlackでやりとりできる機能も搭載し、オフィス内の売店経営を任せた。
その結果、Claudiusは、Anthropicの従業員が依頼した商品を取り扱う業者を、Web検索で素早く見つけるといった成果を見せた。有害物質の製造方法を尋ねるなど、悪意のある指示も拒否したという。
一方で、実験では「人間のマネジャーに期待される水準を下回った」場面もあった。例えば、ある従業員が、スコットランドの飲料「Irn-Bru」の6本セットを100ドルで購入すると提案した時のことだ。これに対し、Claudiusは「今後の在庫管理において、(ユーザーの)要望を念頭に置きます」とだけ回答。米国のオンライン上における同商品の価格は15ドルであり、Claudiusは利益を上げる機会を逃したという。
また、ある従業員の“面白半分”のリクエストがきっかけで、タングステンキューブの注文が殺到するという特殊な状況にも陥った。別の従業員の提案を受け、同商品を事前予約制にしたものの、多くの注文に応えようとするあまり、事前調査を一切せずに価格を設定。原価を下回る価格で、同商品を販売したという。
他にも、従業員の要求に従って大量に割引クーポンを配布する、いくつかの商品を無料で提供する、ハルシネーションにより実在しない支払い先を表示するなどのミスを犯した。
これらのミスの結果、Claudiusは利益を上げることに失敗した。特にタングステンキューブの赤字販売の痛手により、一時は開始時点で持っていた純資産を約25%減らしたという。
この結果に対し、Anthropicは「Claudeは親切なアシスタントとして訓練されたため、ユーザーの要求(割引など)に即座に応じすぎる傾向があると推測している」。一方で「この問題は、より強力なプロンプトと、ビジネス的な成功に関する体系的な考察により、短期的には改善できる可能性がある」と指摘。長期的には、ビジネス向けにClaudeをファインチューニングすることで、問題を改善できる可能性もあるとしている。
同社は「最終的な結果からすると直感に反しているかもしれないが、この実験は、AIミドルマネジャーが登場する未来が現実味を帯びていることを示唆している」と説明。Claudiusの安定性やパフォーマンス向上を目指し、今後も継続して開発する方針だ。
AIは強化学習で“人間のだまし方”を学ぶ──RLHFの副作用、海外チームが24年に報告 「正解っぽい回答」を出力
OpenAI、AIモデルに潜む“悪ガキペルソナ”の更生について説明
自尊心が低い人は「AIに安心を求めやすい」――人はAIにも“愛着”を求めるか? 早稲田大が調査
略奪か協力か──食料が限られた町に閉じ込められた“人類とAI” 生き残りサバイバルゲーム実験を開催
「異議あり!」――AIが「逆転裁判」をプレイ 最も“推論性能”が高いモデルは? 米大学が実験Copyright © ITmedia, Inc. All Rights Reserved.