K 平均法 クラスタリング
このオペレーターは、Spark MLLib から K 平均法 クラスタリング アルゴリズムを実装します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | モデル |
| データ ソース タイプ | TIBCO® Data Virtualization |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | TIBCO® DV, Apache Spark 3.2 以降 |
アルゴリズム
K 平均法アルゴリズムの目的は、属性の点で互いに類似しており、他のクラスター内の個人とは異なるオブジェクトのクラスターを作成することです。これを実現するために、K 平均法では、クラスターの重心を使用してそのクラスターを表す重心ベースの分割手法が採用されています。概念的には、中心点はクラスターの重心です。
K 平均法アルゴリズムは次のように機能します。
- 指定された初期化方法に従って、データセットから K 点が K クラスターの初期重心として選択されます。
- K 個のクラスターは、各観測値を最も近い重心に関連付けることによって作成されます。
- 新しい重心がクラスターに対して計算されます。重心値によって座標が変化するかどうかを判断します。
- 収束するまで (重心値が変化しないとき)、または指定された終了基準が満たされるまで、ステップ 2 と 3 を繰り返します。
このオペレーターは、Spark MLib の K 平均法 クラスタリング アルゴリズムを実装します。
指定されたカラムは、K 平均法 クラスタリング モデルのトレーニングに使用されます。クラスターの初期重心を定義する必要があります。このオペレーターは、K-Means++ とランダム割り当てなど、クラスターの初期重心を定義する 2 つの方法を提供します。
このオペレーターは、シルエット値を使用して、最適なクラスター数を決定します。シルエット メトリックは、割り当てられたクラスターに対する観測値の類似性を他のクラスターと比較するための尺度です。一般に、高いシルエット値が好まれます。
入力
入力は単一の表形式のデータセットです。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 利用可能なすべてのカラムを予測子として使用する | [はい] に設定すると、オペレーターは使用可能なすべてのカラムを予測子として使用し、連続予測子パラメーターとカテゴリカル予測子パラメーターを無視します。 [いいえ] に設定すると、ユーザーは連続予測変数またはカテゴリ予測変数の少なくとも 1 つを選択する必要があります。 |
| 連続予測子 | K 平均法モデルをトレーニングするための数値データカラムを指定します。数値列である必要があります。 [カラムの選択] をクリックして、必要なカラムを選択します。 |
| 距離測定 | K 平均法モデルをトレーニングするための距離測定を指定します。使用可能なオプションは ユークリッド と コサインです。 デフォルト: ユークリッド |
| クラスターの数 | クラスター分析プロセス中に作成するクラスターの数。以下のいずれかの方法でパラメーターを指定します。
デフォルト: 2 |
| 初期化方法 | 初期化クラスターポイントを指定する方法。 K-Means++ または ランダムのいずれかになります。 デフォルト: K-Means++ |
| 機能の正規化 | 数値特徴量を正規化するかどうかを指定します (Z 変換)。 デフォルト: [はい] |
| 最大反復数 | K 平均法アルゴリズムの 1 回の実行で実行される反復の最大数を指定します。 デフォルト: 100 |
| 許容値 | 値が小さいほど、解析が収束したかどうかの判断がより厳密になります。数値が小さいほどアルゴリズムの反復回数は多くなりますが、それでも反復制限によって制限されます。 デフォルト: 0.0001 |
| ランダム シード | 擬似ランダム行抽出に使用するシードを指定します。 デフォルト: 1 |
出力
- パラメーターサマリー情報: 入力パラメーターとその現在の設定のリストが表示されます。
- トレーニングのサマリー: トレーニングのサマリーを表示するテキスト フィールド。
-
シルエット: 割り当てられたクラスターに対する観測値の類似性を他のクラスターと比較するための尺度。
-
トレーニング コスト: トレーニング データセット内のすべてのポイントの最も近い重心までの指定された距離の合計。
-
PRED_KM: 観測が属するクラスターを指定します。
-
DIST_KM: クラスターの重心と観測値の間の距離。
例
次の例では、K 平均法モデルを構築し、予測器 オペレーターを使用して、指定されたデータセットのクラスタリング結果を返します。
- 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
- 複数行 (14 行)。
-
使用可能なすべてのカラムを予測子として使用する:いいえ
-
連続予測変数: 温度、湿度
-
距離測定: ユークリッド
-
クラスター数: 2、4、5
-
初期化メソッド: K-Means++
-
機能の正規化: はい
-
最大反復数: 100
-
公差: 1.0E-4
-
ランダム シード: 1