K 平均法 (DB)

K 平均法構成は、クラスタリングまたはパーティション化基準として使用するデータ メンバーのさまざまな属性値を含むデータセットです。

情報一覧

パラメーター

説明
カテゴリー モデル
データ ソース タイプ DB
出力を他のオペレーターに送信 はい
データ処理ツール なし

ノート: K 平均法 (DB) オペレーターはデータベース データのみに使用されます。Hadoop データの場合は、K 平均法 (HD) オペレーターを使用します。

K 平均法の使用の詳細については、「K 平均法を使用したクラスター分析」を参照してください。

アルゴリズム

K 平均法オペレーターアルゴリズムは、クラスター内のオブジェクトを相互に「類似」させ、属性に関して他のクラスターのメンバーと「非類似」にするように機能します。これを実現するために、K 平均法では、クラスターの重心を使用してそのクラスターを表す重心ベースの分割手法が採用されています。概念的には、クラスターの重心はその中心点です。

TIBCO Data Science - Team Studio K 平均法オペレーターは、クラスター内のメンバーの属性値の平均として重心を定義します。クラスター メンバーと重心の差は、クラスター モデルの品質を決定するために使用されます。注: 距離はさまざまな方法で測定できますが、デフォルトは 2 点間のユークリッド距離です。具体的には、アルゴリズムはクラスター内の変動値を計算します。これは、クラスターのすべてのメンバーとクラスターの重心の間の二乗距離の合計です。

全体的な K 平均法アルゴリズムの目的は、データセットの k クラスターをできるだけコンパクトにし (クラスター内変動を最小にし)、相互に分離し (重複を最小に) することです。言い換えれば、このアルゴリズムは、モデルに含まれるさまざまな属性次元にわたって、クラスター内の類似性が高く、クラスター間の類似性が低いことを目指しています。

K 平均法アルゴリズムは次のように機能します。

  1. データセットからの k 個のランダムな点が、k クラスター初期重心として選択されます。
  2. k 個のクラスターは、各観測値を最も近い重心に関連付けることによって作成されます。
  3. 新しい重心がクラスターに対して計算されます。重心値が座標を変更するかどうかを決定します。
  4. ステップ 2 と 3 は、収束するまで (重心値が変化しないとき)、または指定された終了基準が満たされるまで繰り返されます。

入力

入力データセット内の非数値変数は、クラスタリングを行う前に、まず変換およびスケーリングまたは正規化する必要があります。数値変数も正規化できます。選択した変換、正規化、距離計算に応じて、特定の変数がクラスタリング結果を支配するか、完全に無視される場合があります。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
カラム クラスター分析中に考慮するさまざまな属性 (つまり、データ列) を指定します。少なくとも 1 つのカラムを指定する必要があります。

[カラム] をクリックすると、分析に使用できる入力データセットからカラムを選択するためのダイアログが開きます。

カラムの選択ダイアログ」を参照してください。

クラスター数 k は、クラスター分析プロセス中に作成するクラスターの数を指定します。K 平均法アルゴリズムのクラスター数 k がデータの自然な構造に一致するように選択されていない場合、結果は理想的ではありません。これを軽減する適切な方法は、k のさまざまな値を試してみることです。原則として、最良の k 値は、最小のクラスター内距離と最大のクラスター間距離を示します。

したがって、モデラーはクラスターの結果に基づいて k のさまざまな値を実験する可能性があります。たとえば、分析が収束しない場合、またはグループが重複または分散しすぎる場合には、クラスターの増加が必要になる可能性があります。

デフォルト値: 3

ランダム開始の数 ランダムに開始して、k 平均法で実行される実行の最大数を指定します。この値を増やすと、K 平均法アルゴリズム全体の実行回数が事実上増加するため、アルゴリズムの処理時間も増加します。したがって、[ランダム スタートの数] を増やすとより良いクラスター結果が得られる傾向がありますが、モデラーは分析の処理時間の長さとモデルの全体的な品質のバランスをとる必要があります。

デフォルト値: 1

最大最適化ステップ K 平均法アルゴリズムの 1 回の実行で実行される反復の最大数を指定します。

ノート: K 平均法分析が [最大最適化ステップ] 以内に収束しなかった場合、結果に警告テキスト タブが表示されます。そのような場合は、モデラーはこの値を大きくしてみる必要があります。

デフォルト値: 10

許容値 この値は、ロジスティック回帰および線形回帰のイプシロン値に似ています。値を低く設定するほど (0 に近づくほど)、分析が収束したと判断する基準が厳しくなります。数値が小さいほどアルゴリズムの反復回数は多くなりますが、それでも反復制限によって制限されます。

デフォルト値: 1.0E-4

作業スキーマ 定義されたスキーマは、ビューを書き込むための一時的な場所として使用され、オペレーターの実行終了時にビューを削除します。このスキーマへの書き込みアクセスが必要です。

デフォルト値: @default_schema

出力

ビジュアル出力

列数が 1000 以下のデータセットの場合、K 平均法オペレーターの結果は複数のセクションにわたって表示されます。

ノート: このオペレーターで使用できるビジュアライゼーションの詳細については、「ビジュアル結果を精査する」を参照してください。

  • 中心点 - 中心点の結果セクションには、クラスターごとの各変数の重心測定値からのさまざまな平均距離を示す結果テーブルが表示されます。

    これは、あるクラスターの特定の変数値を別のクラスターと比較するのに役立ちます。

    ノート: K 平均中心点データは、クラスターの特性の簡潔かつ正確な定義として使用できます。

  • クラスター プロファイル - クラスター プロファイルの結果セクションでは、データがクラスターどのように分割されているかの全体的な感覚が得られます。

    クラスター分析で使用される各属性 (つまり、変数) の行を含むテーブルが表示されます。各変数について、次の結果が提供されます。

    • 状態: 変数の数値が指定された分割数グループにどのように分割または階層化されたかを指定します。注: これは、各クラスターのメンバーが可能な値の範囲全体にどのように分布しているかを理解するための「凡例」として機能します。
    • 人口: 分析されたデータ行全体の数を指定し、特定の変数ごとに州全体のデータセットの全体的な内訳を示します。
    • クラスター 0…K: 作成された K 個のクラスターとに、特定の変数ごとにさまざまな状態にわたるクラスター メンバーの内訳がカラムに表示されます。注: 各クラスターのサイズ (つまり、メンバーの数) は、クラスター カラムの上部に表示されます。

    ノート: K 平均法Cluster Profile 結果タブを分析するとき、モデラーは以下を探す必要があります。
    • 各変数はクラスターごとに異なる分布パターンを持ちます。これは、その変数についてクラスターが明確な特性を持っていること、したがって K 平均法分析が成功したことを意味していることを示しています。
    • クラスター サイズの相互の歪みにより、特定のマーケティングをターゲットとする支配的なグループが示されるなど、興味深い結論が浮き彫りになる可能性があります。
    • 明確な特徴を持つクラスターは、特定の条件を対象とした研究に役立つ可能性があります。
  • トレーニング実行 - 実行 セクションには、アルゴリズムのどの実行が表示されるかが表示されます。実行を 1 つだけ選択した場合、ここには 1 行だけが表示されます。

    平均距離 は、各サンプルのクラスター内の重心までの平均ユークリッド距離を指します。

    2 つの反復で実質的に同じモデルが生成された場合 (差が収束しきい値、または許容値未満である場合)、実行は「収束」しています。収束しない場合、アルゴリズムは割り当てられた反復回数まで続行されます。

    平均距離が最小のモデルを選択して結果を表示します。

  • 散布図 - クラスター 結果タブにはクラスター グラフが表示されます。これは、K 平均法分析に使用される 2 つの変数次元に基づいて各クラスターのメンバー値を視覚化したものです。

    通常、クラスターのメンバー間にはある程度の重複がありますが、上の例に示すように、目標はクラスターの重複を最小限に抑えることです。完璧なクラスター分析モデルの場合、分析される各変数のクラスター間に重複はありません。

    出力は一度に 2 次元のみ表示できます。したがって、モデラーは、どの属性ディメンションがクラスタリングに最も大きな影響を与えるかを総合的に評価するために、考えられるすべてのクラスタリング図を検討する必要があります。注: クラスター プロファイル の結果タブでは、どの変数がクラスター体で最もユニークな分布プロファイルを持っているかを簡単に把握できるため、これらの変数はこの クラスター でさらに分析するのに適しています。グラフセクション。

    クラスターのグラフ作成はクラスターごとにオン/オフを切り替えることができます。したがって、グラフは一度に 1 つのクラスターを表示することができ、次の例のように、クラスターごとのメンバーの広がりを理解し、中心からの距離を視覚的に確認するのに役立ちます。これは、明確に分離された 3 つの視覚的に異なるクラスターを示しています。各クラスターの 3 つの中心点。

    2 つの変数の「クラスターの重複」が多い場合は、それらがクラスター分析でそれほど重要ではないこと、またはそれらの特定の変数について母集団全体に大きな変動がないことを示している可能性があります。

    「クラスターの重複」のもう 1 つの原因は、分析の実行前に変数値が適切に正規化されていないことである可能性があります。

データ出力
データセット出力を生成するために 予測器 オペレーターに接続する必要があるモデル出力。PMML とともに PFA および AM 形式でエクスポートすることもできます。