クラスター分析(くらすたーぶんせき)情報システム用語事典

cluster analysis / クラスター解析

» 2004年09月24日 00時00分 公開
[@IT情報マネジメント編集部,@IT]

 多変量解析の1つで、対象物(データの集まり)をサンプルの類似度(距離)によって、いくつかのグループ(クラスター)に分けるデータ分析/分類手法、あるいはそのアルゴリズムの総称。特にデータを外的基準なしに自動的、定量的に分類する数学的方法をいう。

 具体的な手順としては、まず類似性の定義を行ってサンプルの類似度を数値化する。そこからサンプルそれぞれの距離を算出し、それに応じてサンプル同士をまとめ(クラスタリング)、クラスター間の距離も計算する。距離の測定方法としては、ユークリッド距離、ユークリッド平方距離、標準化ユークリッド距離、ミンコフスキー距離、マハラノビスの距離などがある。

 クラスタリング手法(アルゴリズム)も、分析や用途に応じてさまざまなものが提唱されており、その分類もいろいろあるが階層的と非階層的で説明することが多い。階層的方法には、最短距離法、最長距離法、メジアン法、重心法、群平均法、ウォード法、可変法などがあり、非階層的方法には、K-Means法(c-Means法)、自己組織化マップ(Kohonenネットワーク)などがある。

 クラスター分析はもともと、生物分類学における数量表形学の“分類手法”として生まれ育ったものだが、現在では一般的な数理統計手法として心理学・社会学・認知科学から、経営分析、マーケティング、各種製品開発まで幅広く使われている。

参考文献

▼『クラスター分析』 ジョン・A・ハーティガン=著/西田春彦=訳/マイクロソフトウェア/1983年8年(『Clustering Algorithms』の邦訳)

▼『クラスター分析とその応用』 マイケル・R・アンダーバーグ=著/西田英郎=監訳/内田老鶴圃/1988年12月(『Cluster Analysis for Applications』の邦訳)

▼『クラスター分析』 上田尚一=著/朝倉書店/2003年1月


関連用語


Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ