Sakana AI、初の商用サービスはリサーチ特化 「Deep Research」との違いは? 後発で“ベンチマークも追わない”ワケ(1/2 ページ)
「今のベンチマークに合わせて性能を良くすることはしていない」――Sakana AIの合田晴紀氏(プロダクト部門 アプライドリサーチエンジニア)は、6月15日に提供を始めた同社初の商用サービス「Sakana Marlin」(サカナ・マーリン)についてこのように語る。
Sakana Marlinは、ビジネス向けのリサーチに特化したAIサービス。チャット形式で利用可能で、平均8時間ほどかけて自律的に調査し、80ページに及ぶレポートを出力できる。
一方、AIによるリサーチサービス自体は珍しいものではない。米OpenAIのChatGPT内にある「deep research」や、米GoogleのGemini内にある「Deep Research」など、既に普及したチャットAIでも同様の機能を使える。
なぜこのタイミングで、ベンチマークのスコアを追わないリサーチサービスを展開するのか。詳細や狙いを開発を担当する合田氏に聞いた。
8時間の自律調査、仕組みは
Sakana Marlinに「東南アジアにおけるEVバッテリーのリサイクル市場について調査して」と入力すると、AIが調査計画を提案する。ユーザーが承諾すると、AIがWeb上の情報を収集・考察し、調査レポートとその概要、ビジュアルでまとめたスライド資料をそれぞれ出力する。
平均8時間の自律調査を支えるのが、Sakana AI独自の探索技術「AB-MCTS」だ。推論する際に「どこまで幅を広げ、どこを深掘りすべきか」を自律的に判断できる技術で、これにより長時間バランス良くリサーチできるとアピールする。
ベースとなるAIモデルには、Sakana AIがオープンウェイトモデルを事後学習して開発したAIモデル「Namazu」シリーズに加え、他社の最先端のAIモデルを利用する。状況により、最も効果の出るよう複数のモデルを組み合わせるという。
利用を想定する作業は、経営企画における外部環境分析や、新規事業参入における市場の調査、投資先のスクリーニングなど。業界を問わず、幅広いリサーチ業務への導入を狙う。
2種類のプランで提供する予定で、月額約20万円で15回程度の調査ができるプランと、月額約40万円で60回程度の調査ができるプランを用意する。
なお発表時点で、計画立案の際に調査の方向性を調整できるものの、調査開始後はユーザーが介入できないため、レポートの修正には再調査が必要になる。今後、調査の途中で適宜ユーザーの承諾を得る機能の追加や、再調査の際はコストを下げる料金体系などを検討する。
なぜベンチマークにこだわらないのか
合田氏は、Sakana Marlinと従来のAIによるリサーチサービスとの主な違いとして、長い調査時間による出力の質の高さを挙げる。
「Sakana Marlinは、Web上のあらゆるソースに当たり、同じソースも複数回確かめることで、自分の仮説を検証する。結果、既存サービスではなんとなくファクトの断片を集めたような出力になる一方、Sakana Marlinは網羅的な事実をもとに納得感のある説明ができる」(合田氏)
出力の質に関し、ベンチマークなど他のAIサービスと客観的に比較できる指標はあるのか。合田氏に聞いたところ、出力の正確性などを確かめるために内部でベンチマークを活用しているものの、ベンチマークのスコアを高めること自体には注力していないと答えた。
合田氏は、その理由について「今あるディープリサーチのベンチマークは、ビジネスの現場では使えない」と説明する。現状のベンチマークに含まれる一問一答に答える能力と、リサーチの実務で必要な力は異なるという。
一方、実務で使えるかどうかは「評価が難しいからこそベンチマーク化されていない」と合田氏。「私たちの強みでもあり弱みでもある」としつつも、客観的な指標にはこだわらない姿勢を見せた。
「私たちは、リサーチ業務におけるビジネスサイドのニーズをキャッチし、外部的・絶対的な評価はできないが、実際のエキスパートが『良い』と思える出力ができるよう、アルゴリズムを工夫したり評価を回したりすることに注力している」(合田氏)
また、米国のAI企業が提供するサービスとの差別化も念頭に置いている。「米企業は主に自然科学の分野に注力している。米Anthropicのコーディング支援ツール『Claude Code』のように、プログラミングでは数時間稼働するサービスもあるが、ビジネスの現場で使える同様のサービスはまだあまりない」(合田氏)
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
ChatGPT vs. Google検索──どっちで調べるのが学習効果が高い? 8日間の実験で検証した研究
-
2
「Claude Fable 5」「Mythos 5」全面停止 米政府の指令により Anthropicは早期復旧を宣言
-
3
Amazon、Anthropicの最新AIについて懸念を伝えていた 米政権による停止命令に先立ち 関係筋
-
4
「日本がいないと成り立たない」世界へ、フィジカルAIが導く独自の交渉力
-
5
最新AI「Fable 5」でYouTube動画作ってみた 想像以上の出来に驚愕、ただし大きな弱点も
-
6
“AIが電力使いすぎ問題” 「電力不足」懸念で、発電能力より深いボトルネックとは
-
7
「猫も杓子もAI」な現状は今後も続くのか?【後編】AI時代に必要な3つの検討事項
-
8
トヨタが抜かれる日――キオクシア首位奪取、2005年「時価総額トップ10」を振り返る
-
9
「ChatGPTのコネクタでつながるし、M365 Copilotいらなくない?」→有識者3人に聞いてみた 知らないと損するコンテキスト管理「Work IQ」の仕組み
-
10
Anthropic、「Mythos 5」「Fable 5」の提供を一時停止 米政府指示を受け
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR