K 平均法 (HD)
K-Means 構成は、クラスターリングまたはパーティション化基準として使用するデータ メンバーのさまざまな属性値を含むデータセットです。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | モデル |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | MapReduce、Spark |
K-Means の使用の詳細については、K 平均法を使用したクラスター分析を参照してください。
アルゴリズム
K 平均法オペレーターアルゴリズムは、クラスター内のオブジェクトを相互に「類似」させ、属性に関して他のクラスターのメンバーと「非類似」にするように機能します。これを実現するために、K 平均法では、クラスターの重心を使用してそのクラスターを表す重心ベースの分割手法が採用されています。概念的には、クラスターの重心はその中心点です。
TIBCO Data Science - Team Studio K 平均法オペレーターは、クラスター内のメンバーの属性値の平均として重心を定義します。クラスター メンバーと重心の差は、クラスター モデルの品質を決定するために使用されます。注: 距離はさまざまな方法で測定できますが、デフォルトは 2 点間のユークリッド距離です。具体的には、アルゴリズムはクラスター内の変動値を計算します。これは、クラスターのすべてのメンバーとクラスターの重心の間の二乗距離の合計です。
全体的な K 平均法アルゴリズムの目的は、データセットの k クラスターをできるだけコンパクトにし (クラスター内変動を最小にし)、相互に分離し (重複を最小に) することです。言い換えれば、このアルゴリズムは、モデルに含まれるさまざまな属性次元にわたって、クラスター内類似性が高く、クラスター間類似性が低いことを目指しています。
K 平均法アルゴリズムは次のように機能します。
- データセットからの k 個のランダムな点が、k クラスターの初期重心として選択されます。
- k 個のクラスターは、各観測値を最も近い重心に関連付けることによって作成されます。
- 新しい重心がクラスターに対して計算されます。重心値が座標を変更するかどうかを決定します。
- ステップ 2 と 3 は、収束するまで (重心値が変化しないとき)、または指定された終了基準が満たされるまで繰り返されます。
入力
入力データセット内の非数値変数は、クラスターリングを行う前に、まず変換およびスケーリングまたは正規化する必要があります。数値変数も正規化できます。選択した変換、正規化、距離計算に応じて、特定の変数がクラスターリング結果を支配するか、完全に無視される場合があります。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| カラム | クラスター分析中に考慮するさまざまな属性 (つまり、データ列) を指定します。少なくとも 1 つのカラムを指定する必要があります。 列 をクリックして、入力データセットから分析に使用できるカラムを選択するためのダイアログを開きます。 「カラムの選択ダイアログ」を参照してください。 |
| クラスターの数 | K 平均法分析のデータから決定するクラスターの数。 デフォルト値: 3 |
| 最大最適化ステップ | K 平均法アルゴリズムの 1 回の実行で実行される反復の最大数を指定します。 K 平均法分析が 最大最適化ステップ以内に収束しなかった場合、結果に警告メッセージが表示されます。この問題が発生した場合は、この値を増やしてみてください。 デフォルト値: 10 |
| 許容値 | この値は、ロジスティック回帰および線形回帰のイプシロン値に似ています。値を低く設定するほど (0 に近づくほど)、分析が収束したと判断する基準が厳しくなります。数値が小さいほどアルゴリズムの反復回数は多くなりますが、それでも反復制限によって制限されます。 デフォルト値: 1.0E-4 |
| Spark を使用する | [はい] (デフォルト) の場合、Spark を使用して計算時間を最適化します。 |
| 高度な Spark 設定の自動最適化 |
|
出力
列数が 1000 以下のデータセットの場合、K 平均法オペレーターの結果は複数のセクションにわたって表示されます。
- 中心点 - クラスターごとに、各変数の重心測定値からのさまざまな平均距離を含む結果テーブルを表示します。

これは、あるクラスターの特定の変数値を別のクラスターと比較するのに役立ちます。
ノート: K 平均中心点データは、クラスターの特性の簡潔かつ正確な定義として使用できます。 - クラスター プロファイル - データがクラスターにどのように分割されているかの全体的な感覚を提供します。
クラスター分析で使用される各属性 (つまり、変数) の行を含むテーブルが表示されます。各変数について、次の結果が提供されます。
- 状態: 変数の数値が指定された分割数グループにどのように分割または階層化されたかを指定します。注: これは、各クラスターのメンバーが可能な値の範囲全体にどのように分布しているかを理解するための「凡例」として機能します。
- 人口: 分析されたデータ行全体の数を指定し、特定の変数ごとに州全体のデータセットの全体的な内訳を示します。
- クラスター 0…K: 作成された K 個のクラスターごとに、特定の変数ごとにさまざまな状態にわたるクラスター メンバーの内訳がカラムに表示されます。注: 各クラスターのサイズ (つまり、メンバーの数) は、クラスター カラムの上部に表示されます。
ノート: K 平均法クラスター プロファイル結果タブを分析するとき、モデラーは以下を考慮する必要があります。- 各変数はクラスターごとに異なる分布パターンを持ちます。これは、その変数についてクラスターが明確な特性を持っていること、したがって K 平均法分析が成功したことを意味していることを示しています。
- クラスター サイズの相互の歪みにより、特定のマーケティングをターゲットとする支配的なグループが示されるなど、興味深い結論が浮き彫りになる可能性があります。
- 明確な特徴を持つクラスターは、特定の条件を対象とした研究に役立つ可能性があります。
- トレーニング実行 - 実行 セクションには、アルゴリズムのどの実行が表示されるかが表示されます。実行を 1 つだけ選択した場合、ここには 1 行だけが表示されます。

平均距離 は、各サンプルのクラスター内の重心までの平均ユークリッド距離を指します。
2 つの反復で実質的に同じモデルが生成された場合 (差が収束しきい値、または許容値未満である場合)、実行は「収束」しています。収束しない場合、アルゴリズムは割り当てられた反復回数まで続行されます。
平均距離が最小のモデルを選択して結果を表示します。
- 散布図 - クラスター 結果タブにはクラスター グラフが表示されます。これは、K 平均法分析に使用される 2 つの変数次元に基づいて各クラスターのメンバー値を視覚化したものです。
通常、クラスターのメンバー間にはある程度の重複がありますが、上の例に示すように、目標はクラスターの重複を最小限に抑えることです。完璧なクラスター分析モデルの場合、分析される各変数のクラスター間に重複はありません。
出力は一度に 2 次元のみ表示できます。したがって、モデラーは、どの属性ディメンションがクラスターリングに最も大きな影響を与えるかを総合的に評価するために、考えられるすべてのクラスターリング図を検討する必要があります。注: クラスター プロファイル の結果タブでは、どの変数がクラスター全体で最もユニークな分布プロファイルを持っているかを簡単に把握できるため、これらの変数はこの クラスター グラフ セクションでさらに分析するのに適しています。
クラスターのグラフ作成はクラスターごとにオン/オフを切り替えることができます。したがって、グラフは一度に 1 つのクラスターを表示することができ、次の例のように、クラスターごとのメンバーの広がりを理解し、中心からの距離を視覚的に確認するのに役立ちます。これは、各クラスターの3つの中心点が明確に分離された、視覚的に明確な3つのクラスターを示しています。

2 つの変数の「クラスターの重複」が多い場合は、それらがクラスター分析でそれほど重要ではないこと、またはそれらの特定の変数について母集団全体に大きな変動がないことを示している可能性があります。
「クラスターの重複」のもう 1 つの原因は、分析の実行前に変数値が適切に正規化されていないことである可能性があります。