相関フィルター (DB)
数値カラムをフィルタリングして、残りのカラムが互いに強く相関しないようにします。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | トランスフォーム |
| データ ソース タイプ | DB |
| 出力を他のオペレーターに送信 | はい1 |
| データ処理ツール | SQL |
ノート: 相関フィルター (DB) オペレーターはデータベース データのみを対象とします。Hadoop データの場合は、相関フィルター (HD) オペレーターを使用します。
入力
入力データはデータベース ソースです。異なる組み合わせが必要なカラムを選択すると、オペレーターが計算を実行します。
制限事項
- フィルターするカラム または 依存カラム の一部に Null 値が含まれている場合、これらの値は相関関係の計算でスキップされます。
- 列に Null 値のみが含まれる場合、他のカラムとの相関は 0 になります。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| フィルターするカラム
必要 |
2 つ以上の数値カラムを選択します。このパラメーターで選択されたカラムが相互に比較され、残りのカラムすべての相関が以下で定義されたしきい値を下回るまで、このセットからカラムが削除されます。 |
| 依存カラム
必要 |
数値カラムを選択します。別のカラムとの相関が高いためにどのカラムを削除するかを決定する場合、従属変数との相関がより高いカラムが選択されます。 |
| 相関しきい値
必要 |
0 より大きく 1 以下の数値を入力します。このしきい値は、カラムの各ペアが共線的であるとみなされるかどうかを決定するために使用されます。 |
| フィルタリングされるカラムの最大数
必要 |
0 または -1 より大きい整数を入力します。 -1 の場合、オペレーターは相関がしきい値を下回るすべてのカラムを返します。n > 0 の場合、オペレーターは上位 n カラムを従属変数との相関によってランク付けして返します。 |
| 他のカラムをパススルー? | [はい] を選択すると、[フィルターするカラム] で選択されていないカラムが最終結果に含まれます。依存カラムは常に含まれます。 |
| 出力タイプ |
|
| 出力スキーマ | 出力テーブルまたはビューのスキーマ。 |
| 出力テーブル | 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。 |
| 存在する場合は削除 | 既存のテーブルを上書きするかどうかを指定します。
|
次のいずれかが発生すると、相関フィルター オペレーターの最終出力スキーマがクリアされます。
- 相関フィルターの構成プロパティを変更します。
- 相関フィルターに接続されている入力を変更します。
- 相関フィルターのステップ実行結果をクリアした場合
この場合、後続のオペレーターに送信される出力スキーマは、再び設計時に定義された部分スキーマになります (したがって、後続のオペレーターは無効になる可能性があります)。新しい出力スキーマを送信するには、相関フィルター オペレーターを再度実行する必要があります。
出力
ビジュアル出力
出力 タブには、出力データセットのプレビューが表示されます。
サマリー タブには、選択したパラメーターと出力に関する情報が表示されます。
相関結果 タブには、選択されたカラムが追加の詳細 (従属変数との相関、列が選択されなかった理由) とともに表示されます。
データ出力
出力は、新しく作成されたテーブル/ビューのデータセットです。
部分的なスキーマは設計時に後続のオペレーターに送信できますが、最終的な出力スキーマを確認するには、後続のオペレーターに対してオペレーターを実行する必要があります。
例