エンタープライズ:ニュース 2003/05/27 23:16:00 更新


Clementineを中核としたSPSSのマイニングソリューションが支える「強いブランド」

SPSS Japanが開催した「SPSS Data Mining Day 2003」カンファレンス4番目のセッションに、同社プロフェッショナルサービスグループ Chief Statisticianである荒和志氏が登場。SPSSのデータマイニングツール「Clementine」を中核とした「強いブランドを支えるSPSSのマイニングソリューション」について紹介した。

「SPSSのデータ分析ソリューションの中核であるClementineの最大の特徴は、その使いやすさ(Easy of Use)にある」と荒氏は言う。

 Clementineのプロジェクト管理には、同社をはじめ、NCR、ダイムラー・クライスラー、OHARAの4社を中心に、約200のユーザーとベンダーで構成されるSpecial Interest Groupの協力により標準化された「CRISP-DM」(Cross-Industry Standard Process model for Data Mining)手法が採用されている。「ツールに依存しないデータマイニング環境を、迅速かつ効率的に実現することができる」と荒氏。

 同氏は、Clementineを利用したデータ分析手法をはじめ、PMML(the Predictive Model Markup Language)によるClementineと同社の「AnswerTree」とのモデル連携、「Clementine Solution Publisher」による展開、CEMI(Clementine External Module Interface)を活用した「Text Mining for Clementine」によるテキストマイニング機能、CAT(Clementine Application Template)などの解説を、デモンストレーションを交えながら紹介した。

 Clementineの“使いやすさ”の一例としては、「ノードと呼ばれるアイコンを、画面下のボックスからメイン画面上にドラッグ&ドロップで配置し、ノードとノードの間をドラッグにより接続するだけでデータマイニングのプロセスを作成できること」と荒氏。ノードの種類は、「入力」「レコード設定」「フィールド設定」「グラフ作成」「モデル作成」「出力」のタブで分類されており、必要なタブをクリックすることで、利用可能なノードが表示され、必要なノードを選択できる。

spss.jpg
ビジュアル的なClementineのGUI。

 作成されたプロセスや出力結果、モデルの管理は、画面右上のウインドウで行われる。また、CRISP-DMによるプロジェクト管理は、画面右下にウインドウが定義されている。CRISP-DMは、業種やツール、アプリケーションに依存しないデータマイニングの標準化を推進しているコンソーシアム。1996年に設立され、1997年より標準化プロセスの作成をスタートし、2000年にCRISP-DMバージョン1を発表している。

 CRISP-DMでは、「ビジネスの理解」「データの理解」「データの準備」「モデル作成」「評価」「展開/共有」の6つのステップによりデータマイニングを実現。ビジネスの理解では、ビジネス上の問題点を明確にし、プロジェクトモデルを設定する。次にデータの準備では、散在するデータの所在を明らかにし、使用できるかどうかを把握し、データの準備で分析できる状態にデータを加工する。

 さらにモデル作成で、分析に適したモデリング手法によりデータを分析、目標を達成するために十分なモデルかどうかをビジネスの観点から評価する。評価されたモデルで得られた結果をビジネスに展開し、具体的なアクションを実行する。この一連のプロセスにより、データマイニングを実現するのがCRISP-DM手法という。

 Clementineで作成されたモデルは、XMLベースの業界標準言語であるPMML形式で定義されている。PMMLは、統計/データマイニングモデルを各ベンダーのアプリケーションでの共有を可能にする業界標準言語で、他社製品で作成された分析モデルをClementine上で使用したり、Clementineで作成したモデルをほかのアプリケーションに適用させることも可能になる。

 PMMLを利用することで、「例えば、Clementineで加工したデータをAnswerTreeにエクスポートし、AnswerTreeでディシジョンツリーモデルを作成してPMMLモデルをエクスポート。そのPMMLをClementineでインポートすることで、ほかの分析モデルと精度を比較したり、そのモデルを予測モデルに使用したりすることが可能になる」と荒氏。

 このようにして作成されたモデルをエンドユーザーに展開するには、Clementine Solution Publisherの利用が有効になるという。PMMLでは、モデルを単位としたアプリケーション間の連携しかできないが、Clementine Solution Publisherを利用することで、モデルを含むマイニングプロセス全体を、ほかのアプリケーションで利用できる形式に変換することが可能になるという。

 また、ユーザー独自のプログラムや外部モジュールをClementineのノードとして取り入れることを可能にする外部インタフェースであるCEMIを利用することで、これまでClementineになかった機能を容易に追加することが可能になる。例えば、CEMIを利用したText Mining for Clementineを利用することで、Clementineでテキストマイニングの機能を利用することができるという。

 米国本社では、“Clementine Plus Partner Program”と呼ばれるClementineをワークベンチとするパートナーによるCENI対応のアプリケーション開発プログラムも展開されている。既にさまざまなサードパーティ製アプリケーションが提供されているという。

 さらにCAT(Clementine Application Templates)は、SPSSが設立から35年間、培ってきた技術やノウハウを、CRISP-DMをベースにテンプレート化したもの。このテンプレートを利用することで、トレーニングや再利用、カスタマイズなどにより、迅速にデータマイニングを実現することが可能になる。

 現在、小売関連用CRMやWebマイニング、通信関連、ゲノム解析、離反分析、犯罪防止分析などのCATが提供されているほか、日本独自の製品として、テキストマイニングとカードローン審査モデルのCATなどが提供されている。

 まとめとして荒氏は、「Clementineは、リレーショナルデータベース管理システム(RDBMS)をはじめ、テキストデータやWebアクセスログなどさまざまなデータソースを読み込み、SQLの最適化やデータ加工、クリーニングを行うことで、ビジュアライゼーション、予測・判別、クラスタリング、アソシエーションルールなどの分析結果を作成できる。その結果を、RDBMSやPMML、Clementine Solution Publisherなどに展開することで、強いブランドを支えるソリューションを提供できる」と話している。

「このような機能を有効に活用できるClementineは、既に単なるデータマイニングツールではなく“Predictive Analytics”を実践する中核の機能となっている」(荒氏)

 荒氏は、「今後は、“Clementineしか使わない”“SPSSのソリューションしか使わない”と顧客に言ってもらえる製品開発を行っていきたい」と締めくくった。

関連リンク
▼SPSS Data Mining Day 2003
▼SPSS Japan

[山下竜大,ITmedia]