SOM クラスタリング
このオペレーターは、類似性に応じて空間的に位置合わせされたクラスターを生成する自己組織化マップ アルゴリズムを実装します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | モデル |
| データ ソース タイプ | TIBCO® Data Virtualization |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | TIBCO® DV, Apache Spark 3.2 以降 |
アルゴリズム
自己組織化マップ クラスタリング アルゴリズムは、グリッド上に空間的に整列したクラスターを生成する単純なニューラル ネットワークであり、相互に近いクラスターはより類似します。指定されたカラムは、自己組織化マップのクラスタリング アルゴリズムをトレーニングするために使用されます。
このオペレーターは、シルエット値を使用して、最適なクラスター数を決定します。シルエット メトリックは、割り当てられたクラスターと他のクラスターと比較して観測値がどの程度類似しているかを示す尺度です。一般に、より高いシルエット値が優先されます。
入力
入力は単一の表形式のデータセットです。
構成
次の表に、SOM クラスタリング オペレーターの構成の詳細を示します。
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 利用可能なすべてのカラムを予測子として使用する | [はい] に設定すると、オペレーターは使用可能なすべてのカラムを予測子として使用し、連続予測子パラメーターとカテゴリカル予測子パラメーターを無視します。 [いいえ] に設定すると、ユーザーは連続予測変数またはカテゴリ予測変数の少なくとも 1 つを選択する必要があります。 |
| 連続予測子 | 自己組織化マップ モデルをトレーニングするための数値データカラムを指定します。数値列である必要があります。 [カラムの選択] をクリックして、必要なカラムを選択します。 |
| クラスター数 | 自己組織化マップ中に作成するクラスターの数を制御するグリッドの次元を指定します。次の方法が使用できます。
デフォルト: 2 |
| 正規化機能 | 数値特徴量を正規化(Z 変換) するかどうかを指定します。 デフォルト: [はい] |
| 最大反復数 | 自己組織化マップ クラスタリング アルゴリズムの 1 回の実行の最大反復数を指定します (サンプルごとに 1 回の反復)。 デフォルト: 100 |
| 許容値 | 値が小さいほど、解析が収束したかどうかの判断がより厳密になります。数値が小さいほどアルゴリズムの反復回数は多くなりますが、反復制限によって制限されます。 デフォルト: 1.0E-4 |
| ランダム シード | 擬似ランダム行抽出に使用するシードを指定します。 デフォルト: 1 |
出力
- パラメーター サマリー情報: 入力パラメーターとその現在の設定に関する情報が表示されます。
- トレーニング サマリー: トレーニングのサマリーを表示するテキスト フィールド。
シルエット: 割り当てられたクラスターに対する観測値の類似性を他のクラスターと比較するための尺度。
トレーニング コスト: トレーニング データセット内のすべてのポイントの最も近い重心までの指定された距離の合計。
-
PRED_SOM: 観測が属するクラスターを指定します。
-
DIST_SOM: クラスターの重心と観測値の間の距離。
例
次の例は、SOM クラスタリング オペレーターを示しています。
- 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
- 複数行 (14 行)。
-
使用可能なすべてのカラムを予測子として使用する: いいえ
-
連続予測変数: 温度、湿度
-
クラスター数: 2
-
正規化機能: はい
-
最大反復数: 100
-
許容値: 1.0E-4
-
ランダム シード: 1