K 平均法予測器 - MADlib

K-Means 予測器 (MADlib) オペレーターの出力は、入力データ メンバーを k 個のクラスター (K 平均法 (MADlib) オペレーターによってすでに事前に決定されている重心) に割り当てるだけです。

情報一覧

パラメーター

説明
カテゴリー 予測
データ ソース タイプ DB
出力を他のオペレーターに送信 はい
データ処理ツール なし

回帰オペレーターやデシジョン ツリー/CART オペレーターとは異なり、K 平均法予測器は最終的な答えや予測を提供しません。むしろ、モデラーが分析しているデータセットの固有の構造を全体的に理解することができます。これは、消費者データセットに固有の人口統計グループを理解するのに非常に役立つ可能性があります。

次の画像の最初の結果タブには、各ポイントに割り当てられた (クラスター、距離) クラスターと、ポイントとクラスター重心の間の距離、pid またはポイント ID、およびポイント自体の位置が表示されます。

[クラスター] 結果タブにはクラスター グラフが表示されます。これは、K 平均法分析に使用される 2 つの変数次元に基づいて各クラスターのメンバー値を視覚化したものです。

入力

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
MADLib スキーマ名

MADlib がデータベースにインストールされるスキーマ。MADlib は、入力データセットと同じデータベースにインストールする必要があります。

madlib スキーマがデータベースに存在する場合、このパラメーターはデフォルトで madlib になります。

ポイント カラム 入力データセットの ポイント カラムには、各ポイントの属性の配列が含まれています。

このパラメーターは配列型である必要があります。

距離関数 クラスターの重心 (平均) 値からクラスター メンバーの値の差を計算します。距離は次のさまざまな方法で計算できます。

Cosine (コサイン) - 2 つのベクトル間の角度のコサインを測定します。 n 次元ベクトル および の場合、次のように内積公式を使用して計算されます。

Euclidean (ユークリッド) - 各属性軸に沿った距離の二乗和の平方根。 n 次元ベクトル および の場合、次のように計算されます。

K 平均法 クラスターリング ユークリッド

Manhattan (マンハッタン) - マンハッタン、またはタクシーの距離は、軸に平行に移動するときの 2 点間の距離を測定します。 n 次元ベクトル および の場合、それは次のように与えられます。

Squared Euclidean (2 乗ユークリッド) (デフォルト) - 2 点間の直線距離を計算するデフォルトの方法。これは、各属性軸に沿った距離の二乗の合計です。 n 次元ベクトル および の場合、 として計算されます。

Tanimoto - サンプルセット間の非類似性を測定します。これは Jaccard 係数の補数であり、1 から Jaccard 係数を減算することによって、または同等に、和集合と 2 つのセットの共通部分のサイズの差を和集合のサイズで割ることによって取得されます。Dice の類似性と同様に、セットを表すために 0 ~ 1 のベクトルが使用されます。次に、セットベクトル および で表されるセット A と B の Jaccard 類似度は、次の式で求められます。

User defined (ユーザー定義) - ユーザーによって指定されます。 ユーザー定義の距離を参照してください。

ユーザー定義の距離 距離関数ユーザー定義を指定する場合は、関数を指定します。

モデラーは、デフォルトの 2 乗ユークリッド メソッドから始めて、他のさまざまな計算メソッドを試して、クラスターの結果がより直感的に見えるか、ビジネス上の洞察が得られるかを判断します。

出力スキーマ 出力テーブルまたはビューのスキーマ。
出力テーブル 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。
存在する場合は削除 既存のテーブルを上書きするかどうかを指定します。
  • はい - その名前のテーブルが存在する場合、結果を保存する前にテーブルが削除されます。
  • いいえ - その名前のテーブルが存在する場合、結果ウィンドウにエラー メッセージが表示されます。

出力

ビジュアル出力
[クラスター] 結果タブにはクラスター グラフが表示されます。これは、K 平均法分析で使用される 2 つの変数次元に基づいて各クラスターを視覚化する方法です。通常、クラスターのメンバー間にはある程度の重複がありますが、目標はクラスターの重複を最小限に抑えることです。完璧なクラスター分析モデルの場合、分析される各変数のクラスター間に重複はありません。

出力は一度に 2 次元でのみ表示できます。したがって、モデラーは、どの属性ディメンションがクラスターリングに最も大きな影響を与えるかを総合的に評価するために、考えられるすべてのクラスターリング図を検討する必要があります。

ノート: [クラスター プロファイル] 結果タブでは、どの変数がクラスター全体で最もユニークな分布プロファイルを持っているかを簡単に把握できるため、これらの変数は、このクラスター グラフ セクションでさらに分析するのに適しています。

クラスター グラフのオンとオフをクラスターごとに切り替えることができます。したがって、グラフは一度に 1 つのクラスターを表示して表示でき、クラスターごとのメンバーの広がりだけを理解し、中心からの距離を視覚的に確認するのに役立ちます。次の例では cluster3 の結果のみを示しています。

2 つの変数のクラスターの重複が多い場合は、それらがクラスター分析でそれほど重要ではないこと、またはそれらの特定の変数について母集団全体に大きな変動がないことを示している可能性があります。次の例は、y 軸の次元が入力フローからプラント、出力 pH まで変更された場合の、より複雑なクラスターの視覚化を示しています。

クラスターの重複のもう 1 つの原因は、分析の実行前に変数値が適切に正規化されていないことである可能性があります。たとえば、クラスター内の距離を最小化する場合、pH の差「7」は、植物への入力流量の差の値「10,000」ほど重要ではありません。

データ出力