K 平均法の使用例
K 平均法オペレーターは、生物学的データセット (ヒトの遺伝的クラスターリング、遺伝子型の割り当て、配列分析、生物群集分析など)、医療データセット (組織と血液のクラスターリング、IMRT セグメンテーションなど)、ビジネスなどのさまざまなデータセット タイプの分析に役立ちます。マーケティング データセット (消費者集団の市場調査クラスターリング、ショッピング カートのアイテムのグループ・バイ、ソーシャル ネットワーク分析など)、および社会科学データセット (類似の犯罪のホット スポットの犯罪分析や学生/学校のクラスターリングなど)。
テレコミュニケーション データ クラスター分析
次のモデルは、K 平均法クラスター分析モデルを使用して、携帯電話の使用において自然に発生するさまざまな通信クラスターを全体的に理解する方法を示しています。
このユース ケースは、ユーザーまたは消費者の母集団を市場グループに分割するための市場調査にクラスター分析をどのように適用できるかを例示しています。これは、市場のセグメンテーション、製品のポジショニング、マーケティング キャンペーンのターゲット設定などに役立ちます。
このケースで使用されるデータセットは 4MB です。これには 59 列と 15654 の観測値が含まれており、最初の数行とカラムを以下に示します。

ワークフロー
この分析フローのセットアップは、データ ソースの後に K 平均法オペレーターを続けるだけです。
K 平均法オペレーターの構成プロパティはデフォルト値のままにすることができます。 ID 列は Cust_ID フィールドに設定する必要があります。
簡単な評価として、モデラーは、簡単な K 平均法 分析のために、weekend_ minutes、peak_ minutes、offpeak_ minutes の 3 つの携帯電話使用状況メトリクスを選択できます。
結果
K 平均法 分析を実行すると、次の結果が得られます。
Summary 結果には、選択された K 値によって定義されたクラスターの数と、携帯電話の使用量の単位として「分」を持つ 平均距離測定値 41.66 が示されています。
Cluster Profiles (クラスター プロファイル) タブには、使用量メトリック変数ごとにさまざまな自然状態と、それらの状態の各クラスター グループのプロファイルが表示されます。
この例では、Cluster0 には、さまざまな数の使用分グループに分類されるさまざまなユーザーがいます (最も少ないユーザ数は 435 人です)。 Cluster1 には、Peak_ minutes の使用率が低いユーザーのみが含まれており、Weekend_ minutes 変数と Offpeak_ minutes 変数では 2 番目に低い使用率グループのほんの一部が含まれています。 (ユーザー数は 2,617 人です)。 Cluster2 には、3 つの変数すべてにおいて使用率が 100% 最も低いユーザーがいます (12,601 ユーザーという最大の母集団があります)。
Cluster1 と Cluster2 は互いに大きな違いはありませんが、Cluster0 には独特の特徴があり、携帯電話の使用率全体に占める割合が高くなります。
K 平均法 タブには、特定のクラスターへの個々の Cust_ID (携帯電話ユーザー) の割り当てが表示されます。この割り当て情報は、たとえば全体的に最も高い使用レベルを示す Cluster0 ユーザーのみを対象とするマーケティング キャンペーンをターゲットにする場合に非常に価値があります。

Center Point (中心点) タブには、3 つのクラスターすべての携帯電話の使用状況の中心点の値が表示されます。たとえば、Cluster0 の中心は 205 Peak_ minutes、92 Weekend_ minutes、および 141 Offpeak_ minutes です。 Cluster2 の中心は、わずか 9.2 Peak_ minutes、5.5 Weekend_ minutes、および 6.5 Offpeak_ minutes です。

Cluster (クラスター) タブには、さまざまな使用状況メトリック変数が相互にグラフ化され、クラスターが異なる色で表示されます。この例では、Cluster0 に、使用率の値が最も高いデータ ポイントが最も広範囲に分散しています。 Cluster1 は中央に収まり、Cluster2 の使用率は最も低くなります。

このクラスター グラフは、変数のさまざまな組み合わせを使用して表示し、さまざまな変数の次元にわたってクラスター化がどのように見えるかを確認できます。たとえば、Y 軸を Peak_ minutes に選択し、X 軸を Weekend_ minutes に選択すると、次の結果が表示されます。

Weekend_ minutes ディメンションを含めると、クラスターはさらに明確になるように見えます。
K 平均法では、K を事前に決定する必要があるため、モデラーは、Distance (距離) 値が減少するかどうか、またはクラスターがより自然なグループ・バイを示すかどうかを確認するために、K 量を変化させて実験したいと思うかもしれません。