アソシエーション分析(あそしえーしょんぶんせき)情報システム用語事典

association analysis / 相関分析

» 2005年04月18日 00時00分 公開

 POSデータ(注1)などの巨大なデータベースから、価値あるアソシエーション・ルール(注2)を抽出するデータマイニング(注3)・テクニック。マーケットバスケット分析(注4)に利用される。

 アソシエーション・ルール抽出(association rule extraction)、アソシエーション・ルール・マイニング(association rule mining)、アソシエーション・ルール発見(association rule discovery)などともいう。

 小売業のPOSシステムでは、日々大量のトランザクションデータが生み出されている。この中には、「パンとバターを購入した取引の90%がミルクも購入している」といった法則が秘められているが、中規模の小売店舗でも商品アイテム数は数千から数万に及び、その組み合わせ(アソシエーション・ルール)は無数にある。そのため、どの組み合わせが価値ある法則であるか事前に知ることはできない。

 そこでデータベースから価値あるアソシエーション・ルールを漏れなく、効率的に発見する方法がアソシエーション分析である。代表的なアルゴリズムであるアプリオリ(Apriori)アルゴリズムは、信頼度(confidence:確信度とも)と支持度(support:サポートとも)に基づいてルールを評価する。

 アソシエーション・ルールは「パン, バター⇒ミルク」のように表現されるが、⇒より前の部分を条件部(antecedent:前提部とも)、後ろの部分を帰結部(consequent:結論部とも)と呼ぶ。

 信頼度とは、ルールの条件(X)が発生したときに、結論(Y)が起こる割合を示す。つまり、この数値が高いほど、ルールの条件と結論の結び付きが強いことを意味する。


 一方、支持度(support:サポートとも)とは、条件と結論を同時に満たすトランザクションが全トランザクションに占める割合をいう。つまり、ルールそのものの出現率である。


 ルールの価値を判断するうえで、信頼度が高いことが重要なのは当然だが、支持度も一定の高さが必要だ。支持度が極端に低いのは、そのルールがめったに起こらない??あまり買う人がいない商品の組み合わせということを意味する。

 また技術的にも支持度の低いルールを含めてすべてを探索しようとすると、膨大な量の処理を行わなければならなくなる。そこで、アプリオリ・アルゴリズムは支持度と信頼度に閾値を設け(ユーザーが指定する)、それを超える信頼度と支持度を持つルールを重要なものと見なすようになっている。

 アソシエーション・ルールは、しばしば相関ルールと訳されるが、この“相関”は統計学でいう相関(correlation)ではない。バターを買う人の90%がミルクを買うというルールが発見されたとしても、顧客すべてのうちの90%もまたミルク購入者であれば意味あるルールとはいえない。

 そこで条件部を空とした場合との信頼度の比率をリフト値(lift)として指標化し、これによって意味あるルールのみを選択することが考えられた。


 リフト値が低ければ、何らかの理由で、帰結部のアイテムは単独で非常に売れており、条件部のアイテムとの相関関係よりも帰結部アイテム特有の理由で購買要因が存在すると考えられる。リフト値が1より大きい場合は、有効なルールといえる。

 前述したようにアソシエーション分析はアイテムの数が増えると処理が膨大になり過ぎるという難点がある。そのため、アイテムの分類方法(ミルク、コーヒーではなく飲料とするなど)や、ルールの長さ(ルールを構成するアイテムの数)などを調整することが必要となる。

 アソシエーション・ルール抽出問題は、IBMアルマデン研究所のラケシュ・アグラワル(Rakesh Agrawal)氏らが提出した「Mining Associations between Sets of Items in Massive Databases」(1993年)という論文を嚆矢とする。アグラワルは1990年代初めに英国の有力百貨店マークス&スペンサーの幹部から、店舗で集めているデータをどう活用すればいいのかを相談されたことをきっかけに研究を始めたという。その意味では、アソシエーション分析は最初からマーケットバスケット分析のために生まれた手法である。

 翌年、同チームが提案したアプリオリ・アルゴリズムは、実際に巨大データベースからルールの抽出が可能となり、データマインニング実用化のブレークスルーとなった。その後、このアルゴリズムを改良したさまざまなアルゴリズムが登場している。

 なお、スタンフォード大学に在学していた(後にグーグルの共同設立者となる)サーゲイ・ブリン(Sergey Brin)氏らは、1997年に信頼度と支持度では条件部と結論部の相関関係を正しく評価できないと指摘し、コリレーション分析を提唱している。

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ