相関フィルター (HD)
数値カラムをフィルタリングして、残りのカラムが互いに強く相関しないようにします。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | トランスフォーム |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい1 |
| データ処理ツール | Spark |
入力
HDFS 上のファイル。異なる組み合わせが必要なカラムを選択すると、オペレーターが計算を実行します。
保持するカラムが相関関係に基づいて決定されると、入力からの入力 Null 値が、関連するカラムの出力データセットに保存されます。
これは、このオペレーターの 相関フィルター (DB) とは異なる動作です。このオペレーターを実行する前に、Null 値を置き換えてください。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| フィルターするカラム
*必須 |
2 つ以上の数値カラムを選択します。このパラメーターで選択されたカラムが相互に比較され、残りのカラムすべての相関が以下で定義されたしきい値を下回るまで、このセットからカラムが削除されます。 |
| 依存カラム
*必須 |
数値カラムを選択します。別のカラムとの相関が高いためにどのカラムを削除するかを決定する場合、従属変数との相関がより高いカラムが選択されます。 |
| 相関しきい値
*必須 |
0 より大きく 1 以下の数値を入力します。このしきい値は、カラムの各ペアが共線的であるとみなされるかどうかを決定するために使用されます。 |
| フィルタリングされるカラムの最大数
*必須 |
0 または -1 より大きい整数を入力します。 -1 の場合、オペレーターは相関がしきい値を下回るすべてのカラムを返します。n > 0 の場合、オペレーターは上位 n カラムを従属変数との相関によってランク付けして返します。 |
| 他のカラムをパススルー? | [はい] を選択すると、[フィルターするカラム] で選択されていないカラムが最終結果に含まれます。依存カラムは常に含まれます。 |
| 相関方法 | 計算する相関方法を選択します。サポートされている方法は、ピアソン相関またはスピアマン相関です。 ノート: ピアソン相関係数が最も広く使用されています。正規分布変数間の線形関係の強さを測定します。変数が正規分布していない場合、または変数間の関係が線形でない場合は、Spearman 順位相関法を使用する方が適切な場合があります。 |
| Null データのために削除された行をファイルに書き込む | [フィルターするカラム] に少なくとも 1 つの Null 値がある行は、相関分析中にスキップされます (ただし、出力には残ります)。このパラメーターを使用すると、Null 値を含む行をファイルに書き込むかどうかを指定できます。 ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名の接尾辞は _baddata です。
|
| ストレージ フォーマット | 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。 一般的な形式は、Avro、CSV、TSV、または Parquet です。 |
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプション。
利用可能な Avro 圧縮オプション。
|
| 出力ディレクトリ | 出力ファイルを保存する場所。 |
| 出力名 | 結果を含める名前。 |
| 出力を上書き | そのパスにある既存のデータを削除するかどうかを指定します。
|
| 高度な Spark 設定の自動最適化 |
|
出力
- 出力 タブには、出力データセットのプレビューが表示されます。
- サマリー タブには、選択したパラメーターと出力に関する情報が表示されます。
- 相関結果 タブには、選択されたカラムが追加の詳細 (従属変数との相関、カラムが選択されなかった理由) とともに表示されます。
次のいずれかが発生すると、相関フィルター オペレーターの最終出力スキーマがクリアされます。
- ユーザーは、相関フィルターの構成プロパティを変更します。
- ユーザーは、相関フィルターに接続されている入力を変更します。
- ユーザーは、相関フィルターのステップ実行結果をクリアします。
この場合、後続のオペレーターに送信される出力スキーマは、設計時に定義された部分スキーマになります (したがって、後続のオペレーターは無効になる可能性があります)。ユーザーは、相関フィルター オペレーターを再度実行して、新しい出力スキーマを送信する必要があります。