SOM クラスタリング

このオペレーターは、類似性に応じて空間的に位置合わせされたクラスターを生成する自己組織化マップ アルゴリズムを実装します。

SOM クラスタリング icon.png

情報一覧

ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。

パラメーター

説明
カテゴリー モデル
データ ソース タイプ TIBCO® Data Virtualization
出力を他のオペレーターに送信 はい
データ処理ツール TIBCO® DV, Apache Spark 3.2 以降

アルゴリズム

自己組織化マップ クラスタリング アルゴリズムは、グリッド上に空間的に整列したクラスターを生成する単純なニューラル ネットワークであり、相互に近いクラスターはより類似します。指定されたカラムは、自己組織化マップのクラスタリング アルゴリズムをトレーニングするために使用されます。

このオペレーターは、シルエット値を使用して、最適なクラスター数を決定します。シルエット メトリックは、割り当てられたクラスターと他のクラスターと比較して観測値がどの程度類似しているかを示す尺度です。一般に、より高いシルエット値が優先されます。

入力

入力は単一の表形式のデータセットです。

不正な値または欠落している値
Null 値は許されず、エラーとなります 。

構成

次の表に、SOM クラスタリング オペレーターの構成の詳細を示します。

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
利用可能なすべてのカラムを予測子として使用する [はい] に設定すると、オペレーターは使用可能なすべてのカラムを予測子として使用し、連続予測子パラメーターとカテゴリカル予測子パラメーターを無視します。 [いいえ] に設定すると、ユーザーは連続予測変数またはカテゴリ予測変数の少なくとも 1 つを選択する必要があります。
連続予測子 自己組織化マップ モデルをトレーニングするための数値データカラムを指定します。数値列である必要があります。 [カラムの選択] をクリックして、必要なカラムを選択します。
クラスター数 自己組織化マップ中に作成するクラスターの数を制御するグリッドの次元を指定します。次の方法が使用できます。
  • K1 などの単一の値。クラスターの数は 1 より大きくなければなりません。たとえば、K1=2 は 4 クラスター (2x2) グリッドに相当します。

  • K1K2K3 などのカンマ区切りのシーケンス。たとえば、K1=2、K2=3、および K3=4 は、それぞれ 4 クラスター (2x2) グリッド、9 クラスター (3x3) グリッド、および 16 クラスター (4x4) グリッドに相当します。

  • start:end:step で指定されたシーケンス。以下の条件を満たさないとエラーが表示されます。

    • startend より小さくなければなりません。

    • step は、end-start の結果より小さくなければなりません。

    • start は 2 以上である必要があります。

    たとえば、start:end:step=2:6:2 は K1=2、K2=4、および K3=6 を生成します。これらは 4 クラスター (2x2) グリッド、16 クラスター (4x4) グリッド、および 36 クラスター (6x6) に相当します。それぞれグリッド。

  • start:end で指定されたシーケンス。これにより、ステップが 1 に等しいシーケンスが生成されます。たとえば、start:end=2:4 は K1=2、K2=3、および K3=4 を生成します。これらは 4 クラスター (2x2) グリッド、9 クラスター (3x3) グリッドに相当します。 、および 16 クラスター (4x4) グリッドがそれぞれあります。

デフォルト: 2

正規化機能 数値特徴量を正規化(Z 変換) するかどうかを指定します。

デフォルト: [はい]

最大反復数 自己組織化マップ クラスタリング アルゴリズムの 1 回の実行の最大反復数を指定します (サンプルごとに 1 回の反復)。

デフォルト: 100

許容値 値が小さいほど、解析が収束したかどうかの判断がより厳密になります。数値が小さいほどアルゴリズムの反復回数は多くなりますが、反復制限によって制限されます。

デフォルト: 1.0E-4

ランダム シード 擬似ランダム行抽出に使用するシードを指定します。

デフォルト: 1

出力

ビジュアル出力
  • パラメーター サマリー情報: 入力パラメーターとその現在の設定に関する情報が表示されます。
  • トレーニング サマリー: トレーニングのサマリーを表示するテキスト フィールド。
    • シルエット: 割り当てられたクラスターに対する観測値の類似性を他のクラスターと比較するための尺度。

    • トレーニング コスト: トレーニング データセット内のすべてのポイントの最も近い重心までの指定された距離の合計。

後続オペレーターへの出力
予測器 オペレーターで使用できるモデル オブジェクト。データセットに対してクラスタリングを実行するには、SOM クラスタリング オペレーターの後に 予測器 オペレーターが続く必要があります。 予測器 オペレーターで 2 つの追加のカラムが生成されます。
  • PRED_SOM: 観測が属するクラスターを指定します。

  • DIST_SOM: クラスターの重心と観測値の間の距離。

モデル検証 オペレーターでは使用できないモデル オブジェクト。

次の例は、SOM クラスタリング オペレーターを示しています。

SOM クラスタリング ワークフロー.png
データ
golf: このデータセットには次の情報が含まれています。
  • 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
  • 複数行 (14 行)。
パラメーター設定
golf データセットのパラメーター設定は次のとおりです。
  • 使用可能なすべてのカラムを予測子として使用する: いいえ

  • 連続予測変数: 温度、湿度

  • クラスター数: 2

  • 正規化機能: はい

  • 最大反復数: 100

  • 許容値: 1.0E-4

  • ランダム シード: 1

結果
次の図は、golf データセットのパラメーター設定の出力を示しています。
パラメーター サマリー情報
SOM クラスタリング出力 - パラメーターサマリー情報 tab.png
トレーニング サマリー
SOM クラスタリングの出力 - トレーニングのサマリー tab.png