K 平均法を使用したクラスター分析

クラスター分析で最もよく知られ、一般的に使用される分割法の 1 つです。

クラスター分析は、オブジェクトのセットをグループ (クラスターと呼ばれる) に割り当てることに基づく予測分析の方法であり、同じクラスター内のオブジェクトが (さまざまな属性の点で) 他のクラスター内のオブジェクトよりも互いに類似するようになります。

ワークフローでの K 平均法オペレーターの構成の詳細については、各オペレーターのヘルプを参照してください。

クラスター分析の基本的なタイプは、集合のオブジェクトをいくつかの排他的なグループまたはクラスターに編成するパーティショニングです。n 個の観測からなるデータ集合と、形成する k 個のクラスターが与えられると、K 平均法分析は、クラスターの中心からのメンバーの平方平均距離を最小にする k 個の指定された数のクラスターにデータを編成または「パーティション」します。例えば、次の図は、データ集合が 3 つのサブ・グループまたは「クラスター」に分割される様子を示しています。

K 平均法オペレーターを使用するかどうかを決定するときは、クラスタリングが「無指向」または「教師なし」のデータ マイニング手法であることを理解すると役立ちます。つまり、その目的はデータ全体の構造を発見することであるため、実際に予測される目標値はありません。したがって、K 平均法オペレーターの従属変数と独立変数は区別されません。

一般原理

クラスタリング手法は、観察された例を次の 2 つの主な基準を満たすクラスター (グループ) に結合するために使用されます。

  • 各グループまたはクラスターは同種です。同じグループに属する例は互いに類似しています。
  • 各グループまたはクラスターは他のクラスターとは異なる必要があります。つまり、1 つのクラスターに属するサンプルは、他のクラスターのサンプルとは異なる必要があります。

このアルゴリズムには、事前定義されたクラスター数 (名前の「k」) が入力として含まれます。

本アルゴリズムの英語表記である K-Means の「Means」は平均を表し、特定のクラスターのすべてのメンバーの平均的な位置を表します。

クラスタリング手法を扱うときは、高次元空間、つまり分析対象のデータ テーブルのすべての属性が直交次元である空間の概念を採用する必要があります。例の各属性の値は、属性軸に沿った原点からの例の距離を表します。

ノート: このジオメトリを効率的に使用するには、データセット内の値がすべて数値である必要があり (カテゴリーデータを数値に変換する必要があります)、複数属性空間で全体の距離を公平に計算できるように正規化する必要があります。

K 平均法アルゴリズムは単純な反復手順であり、重要な概念は重心です。

  • 重心は、特定のクラスターの平均位置を表すレコード空間内の人工的な点です。
  • この点の座標は、クラスターに属するすべての例の属性値の平均です。

K 平均法アルゴリズム[1] のステップは次のとおりです。

  1. k クラスターの重心のシードとなる k 個の点 (例にすることもできます) をランダムに選択します。
  2. 各例をその例に最も近い重心に割り当て、このようにして k 個の排他的な例のクラスターを形成します。
  3. クラスターの新しい重心を計算します。そのために、同じクラスター (重心) に属するサンプルのすべての属性値を平均します。
  4. クラスターの重心の「座標」が変更されたかどうかを確認します。[はい] の場合は、手順 2 からやり直します。そうでない場合、クラスターの検出は終了し、すべてのサンプルのクラスター メンバーシップが定義されます。

通常、重心を再定義し、サンプルをクラスターに再割り当てするこの反復手順は、収束するまでに数回の反復のみを必要とします。K 平均法アルゴリズムは、モデルを最適化するための品質尺度を計算します。品質尺度は次のように計算されます。

ここで、k はクラスター数、p はクラスター Ci のメンバー、dist は Ci クラスターの中心からの p の距離です。

K 平均法結果の分析

クラスター分析が完了したら、データ マイニング プロジェクトで実際の価値を得るためにクラスターを解釈する必要があります。

全体として、さまざまな K 平均法オペレーターの結果出力を分析した後、モデラー/ビジネス ユーザーは次のいずれかを実行することを決定できます。

  • たとえば、別の属性セット、クラスター ポイント、k 値、または距離計算メトリックを選択して、クラスター析を調整します。
  • クラスターの結果を総合的に使用します。モデラーは K 平均法分析の結果を取得し、情報を「そのまま」使用する場合があります。たとえば、クラスターのメンバーシップを分類システムのラベルとして使用できます。ビジネスの観点からクラスター (つまり、最も忠実な顧客のクラスターまたは暴力犯罪者のクラスター) を解釈することは、自然に発生するクラスターが実際に何であるかを理解するのに非常に有益である可能性があります。
  • 特定のクラスターをターゲットにする: クラスターの結果に基づいて、企業にとって、たとえば、特定の顧客クラスターのみにマーケティング キャンペーンを適用することが合理的になる場合があります。

デシジョン ツリーまたは CART 分類分析の実行: 定義されたクラスター グループに基づいて、次にデシジョン ツリーまたは CART オペレーターのような記述的データマイニング技法を実行すると、関係する分類ルールを理解するのに役立つかもしれません。