K 平均法 クラスタリング

このオペレーターは、Spark MLLib から K 平均法 クラスタリング アルゴリズムを実装します。

情報一覧

ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。

パラメーター

説明
カテゴリー モデル
データ ソース タイプ TIBCO® Data Virtualization
出力を他のオペレーターに送信 はい
データ処理ツール TIBCO® DV, Apache Spark 3.2 以降

アルゴリズム

K 平均法アルゴリズムの目的は、属性の点で互いに類似しており、他のクラスター内の個人とは異なるオブジェクトのクラスターを作成することです。これを実現するために、K 平均法では、クラスターの重心を使用してそのクラスターを表す重心ベースの分割手法が採用されています。概念的には、中心点はクラスターの重心です。

K 平均法アルゴリズムは次のように機能します。

  1. 指定された初期化方法に従って、データセットから K 点が K クラスターの初期重心として選択されます。
  2. K 個のクラスターは、各観測値を最も近い重心に関連付けることによって作成されます。
  3. 新しい重心がクラスターに対して計算されます。重心値によって座標が変化するかどうかを判断します。
  4. 収束するまで (重心値が変化しないとき)、または指定された終了基準が満たされるまで、ステップ 2 と 3 を繰り返します。

このオペレーターは、Spark MLib の K 平均法 クラスタリング アルゴリズムを実装します。

指定されたカラムは、K 平均法 クラスタリング モデルのトレーニングに使用されます。クラスターの初期重心を定義する必要があります。このオペレーターは、K-Means++ とランダム割り当てなど、クラスターの初期重心を定義する 2 つの方法を提供します。

このオペレーターは、シルエット値を使用して、最適なクラスター数を決定します。シルエット メトリックは、割り当てられたクラスターに対する観測値の類似性を他のクラスターと比較するための尺度です。一般に、高いシルエット値が好まれます。

入力

入力は単一の表形式のデータセットです。

不正な値または欠落している値
Null 値は許されず、エラーとなります。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
利用可能なすべてのカラムを予測子として使用する [はい] に設定すると、オペレーターは使用可能なすべてのカラムを予測子として使用し、連続予測子パラメーターとカテゴリカル予測子パラメーターを無視します。 [いいえ] に設定すると、ユーザーは連続予測変数またはカテゴリ予測変数の少なくとも 1 つを選択する必要があります。
連続予測子 K 平均法モデルをトレーニングするための数値データカラムを指定します。数値列である必要があります。 [カラムの選択] をクリックして、必要なカラムを選択します。
距離測定 K 平均法モデルをトレーニングするための距離測定を指定します。使用可能なオプションは ユークリッドコサインです。

デフォルト: ユークリッド

クラスターの数 クラスター分析プロセス中に作成するクラスターの数。以下のいずれかの方法でパラメーターを指定します。
  • 単一の値 K1。たとえば、2 です。クラスターの数は 1 より大きくなければなりません。

  • カンマで区切られたシーケンス K1, K2, K3 など。たとえば、2,3,4,5 です。

  • start:end:step で指定されたシーケンス。たとえば、2:6:2 です。これにより、K = 2,4,6 が生成されます。以下の条件を満たさないとエラーが表示されます。

    • startend より小さくなければなりません。

    • step は、end-start の結果より小さくなければなりません。

    • start は 2 以上である必要があります。

  • start:end で指定されるシーケンス。これにより、ステップが 1 に等しいシーケンスが生成されます。たとえば、2:6 です。これにより、K = 2,3,4,5,6 が生成されます。

デフォルト: 2

初期化方法 初期化クラスターポイントを指定する方法。 K-Means++ または ランダムのいずれかになります。

デフォルト: K-Means++

機能の正規化 数値特徴量を正規化するかどうかを指定します (Z 変換)。

デフォルト: [はい]

最大反復数 K 平均法アルゴリズムの 1 回の実行で実行される反復の最大数を指定します。

デフォルト: 100

許容値 値が小さいほど、解析が収束したかどうかの判断がより厳密になります。数値が小さいほどアルゴリズムの反復回数は多くなりますが、それでも反復制限によって制限されます。

デフォルト: 0.0001

ランダム シード 擬似ランダム行抽出に使用するシードを指定します。

デフォルト: 1

出力

ビジュアル出力
  • パラメーターサマリー情報: 入力パラメーターとその現在の設定のリストが表示されます。
  • トレーニングのサマリー: トレーニングのサマリーを表示するテキスト フィールド。
    • シルエット: 割り当てられたクラスターに対する観測値の類似性を他のクラスターと比較するための尺度。

    • トレーニング コスト: トレーニング データセット内のすべてのポイントの最も近い重心までの指定された距離の合計。

後続のオペレーターへの出力
予測器 オペレーターで使用できるモデル オブジェクト。データセットに対してクラスタリングを実行するには、K 平均法Clustering オペレーターの後に 予測器 オペレーターが続く必要があります。 予測器 オペレーターで 2 つの追加列が生成されます。
  • PRED_KM: 観測が属するクラスターを指定します。

  • DIST_KM: クラスターの重心と観測値の間の距離。

モデル検証 オペレーターでは使用できないモデル オブジェクト。

次の例では、K 平均法モデルを構築し、予測器 オペレーターを使用して、指定されたデータセットのクラスタリング結果を返します。

K_Means_Clustering_workflow
データ
golf: このデータセットには次の情報が含まれています。
  • 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
  • 複数行 (14 行)。
パラメーター設定
golf データセットのパラメーター設定は次のとおりです。
  • 使用可能なすべてのカラムを予測子として使用する:いいえ

  • 連続予測変数: 温度、湿度

  • 距離測定: ユークリッド

  • クラスター数: 2、4、5

  • 初期化メソッド: K-Means++

  • 機能の正規化: はい

  • 最大反復数: 100

  • 公差: 1.0E-4

  • ランダム シード: 1

結果
これらの図は、golf データセットのパラメーター設定の結果を示しています。
パラメーターのサマリー情報
K_Means_Clustering_Paramter のサマリー情報
トレーニングのサマリー
K_Means_Clustering_Training のサマリー