AI店長、客に“親切すぎて”赤字を出す 原価割れにクーポンの大量配布 Anthropicが実験結果を公開
AIに売店の経営を任せたらどうなるのか――AI開発企業の米Anthropicは、このような実験の結果を公開した。
AIに売店の経営を任せたらどうなるのか――AI開発企業の米Anthropicは6月27日(現地時間)、このような実験の結果を公開した。AIモデル「Claude Sonnet 3.7」をベースとしたAIエージェント「Claudius」が、同社のオフィスにある無人店舗を約1カ月間運営。顧客の要望に応えようとして、原価より低い価格で商品を販売するなど複数のミスを犯したという。
実験には、AIの安全性を評価する米Andon Labsが協力した。Claudiusには、在庫管理や商品の価格設定など、利益を上げるために必要な複数のタスクをこなすよう指示。販売する商品をWebで調べる機能や、価格を自由に設定できる機能、Andon Labsの従業員に在庫の補充を依頼する機能などを追加した。顧客であるAnthropicの従業員とSlackでやりとりできる機能も搭載し、オフィス内の売店経営を任せた。
その結果、Claudiusは、Anthropicの従業員が依頼した商品を取り扱う業者を、Web検索で素早く見つけるといった成果を見せた。有害物質の製造方法を尋ねるなど、悪意のある指示も拒否したという。
一方で、実験では「人間のマネジャーに期待される水準を下回った」場面もあった。例えば、ある従業員が、スコットランドの飲料「Irn-Bru」の6本セットを100ドルで購入すると提案した時のことだ。これに対し、Claudiusは「今後の在庫管理において、(ユーザーの)要望を念頭に置きます」とだけ回答。米国のオンライン上における同商品の価格は15ドルであり、Claudiusは利益を上げる機会を逃したという。
また、ある従業員の“面白半分”のリクエストがきっかけで、タングステンキューブの注文が殺到するという特殊な状況にも陥った。別の従業員の提案を受け、同商品を事前予約制にしたものの、多くの注文に応えようとするあまり、事前調査を一切せずに価格を設定。原価を下回る価格で、同商品を販売したという。
他にも、従業員の要求に従って大量に割引クーポンを配布する、いくつかの商品を無料で提供する、ハルシネーションにより実在しない支払い先を表示するなどのミスを犯した。
これらのミスの結果、Claudiusは利益を上げることに失敗した。特にタングステンキューブの赤字販売の痛手により、一時は開始時点で持っていた純資産を約25%減らしたという。
この結果に対し、Anthropicは「Claudeは親切なアシスタントとして訓練されたため、ユーザーの要求(割引など)に即座に応じすぎる傾向があると推測している」。一方で「この問題は、より強力なプロンプトと、ビジネス的な成功に関する体系的な考察により、短期的には改善できる可能性がある」と指摘。長期的には、ビジネス向けにClaudeをファインチューニングすることで、問題を改善できる可能性もあるとしている。
同社は「最終的な結果からすると直感に反しているかもしれないが、この実験は、AIミドルマネジャーが登場する未来が現実味を帯びていることを示唆している」と説明。Claudiusの安定性やパフォーマンス向上を目指し、今後も継続して開発する方針だ。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
AIは強化学習で“人間のだまし方”を学ぶ──RLHFの副作用、海外チームが24年に報告 「正解っぽい回答」を出力
中国の清華大学や米UCバークレー、米Anthropicなどに所属する研究者らは2024年、強化学習による言語モデルの訓練が、予期せぬ副作用として人間を誤導する能力の向上をもたらすという懸念すべき現象を実証的に確認した研究報告を発表した。
OpenAI、AIモデルに潜む“悪ガキペルソナ”の更生について説明
OpenAIは、AIモデルが意図せず「悪ガキペルソナ」のような望ましくない振る舞いをする「誤アラインメント」に関する論文を公開した。不適切な学習が特定のペルソナを増幅させることが原因だという。対策として高品質なデータの使用が重要で、発生後も少量の良質なデータで再調整すれば修復可能としている。
自尊心が低い人は「AIに安心を求めやすい」――人はAIにも“愛着”を求めるか? 早稲田大が調査
自尊心が低い人は「AIに安心を求めやすい」――早稲田大学の研究チームは、人とAIの関係において、こんな特徴が見られるとの研究結果を発表した。
略奪か協力か──食料が限られた町に閉じ込められた“人類とAI” 生き残りサバイバルゲーム実験を開催
中国の華南理工大学とオーストラリアのシドニー工科大学などに所属する研究者らは、極度の資源不足環境における大規模言語モデル(LLM)の倫理的行動を評価する研究報告を発表した。
「異議あり!」――AIが「逆転裁判」をプレイ 最も“推論性能”が高いモデルは? 米大学が実験
ゲーム「逆転裁判」をAIにプレイさせ、推論性能を測る――米カリフォルニア大学サンディエゴ校の研究機関・Hao AI Labは4月16日、こんな実験の結果を公開した。



