相関フィルター (HD)

数値カラムをフィルタリングして、残りのカラムが互いに強く相関しないようにします。

情報一覧

パラメーター

説明
カテゴリー トランスフォーム
データ ソース タイプ HD
出力を他のオペレーターに送信 はい1
データ処理ツール Spark

ノート: 相関フィルター (HD) オペレーターは、Hadoop データのみに使用されます。データベース データの場合は、相関フィルター (DB) オペレーターを使用します。

入力

HDFS 上のファイル。異なる組み合わせが必要なカラムを選択すると、オペレーターが計算を実行します。

値が不正または欠落しています
入力の行の、選択した [フィルターするカラム] の少なくとも 1 つに Null 値が含まれている場合、相関行列を計算する前に行全体がスキップされます。

保持するカラムが相関関係に基づいて決定されると、入力からの入力 Null 値が、関連するカラムの出力データセットに保存されます。

これは、このオペレーターの 相関フィルター (DB) とは異なる動作です。このオペレーターを実行する前に、Null 値を置き換えてください。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
フィルターするカラム

*必須

2 つ以上の数値カラムを選択します。このパラメーターで選択されたカラムが相互に比較され、残りのカラムすべての相関が以下で定義されたしきい値を下回るまで、このセットからカラムが削除されます。
依存カラム

*必須

数値カラムを選択します。別のカラムとの相関が高いためにどのカラムを削除するかを決定する場合、従属変数との相関がより高いカラムが選択されます。
相関しきい値

*必須

0 より大きく 1 以下の数値を入力します。このしきい値は、カラムの各ペアが共線的であるとみなされるかどうかを決定するために使用されます。
フィルタリングされるカラムの最大数

*必須

0 または -1 より大きい整数を入力します。 -1 の場合、オペレーターは相関がしきい値を下回るすべてのカラムを返します。n > 0 の場合、オペレーターは上位 n カラムを従属変数との相関によってランク付けして返します。
他のカラムをパススルー? [はい] を選択すると、[フィルターするカラム] で選択されていないカラムが最終結果に含まれます。依存カラムは常に含まれます。
相関方法 計算する相関方法を選択します。サポートされている方法は、ピアソン相関またはスピアマン相関です。
ノート: ピアソン相関係数が最も広く使用されています。正規分布変数間の線形関係の強さを測定します。変数が正規分布していない場合、または変数間の関係が線形でない場合は、Spearman 順位相関法を使用する方が適切な場合があります。
Null データのために削除された行をファイルに書き込む [フィルターするカラム] に少なくとも 1 つの Null 値がある行は、相関分析中にスキップされます (ただし、出力には残ります)。このパラメーターを使用すると、Null 値を含む行をファイルに書き込むかどうかを指定できます。

ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名の接尾辞は _baddata です。

  • Null 行の書き込みまたはカウントを行わない (最速) - Null 値データを削除しますが、カウントして結果 UI に表示しません。

  • Null 行をファイルに書き込まない - Null 値データを削除して結果 UI に表示しますが、外部ファイルには書き込みません。

  • 最大 1000 行の Null 行をファイルに書き込む - Null 値データを削除し、そのデータの最初の 1000 行を外部ファイルに書き込みます。

  • すべての Null 行をファイルに書き込む - Null 値データを削除し、削除されたすべての行を外部ファイルに書き込みます。

ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力
  • 出力 タブには、出力データセットのプレビューが表示されます。
  • サマリー タブには、選択したパラメーターと出力に関する情報が表示されます。
  • 相関結果 タブには、選択されたカラムが追加の詳細 (従属変数との相関、カラムが選択されなかった理由) とともに表示されます。
データ出力
フィルターされたカラムを使用して作成されたデータセット。
ノート: 部分的なスキーマは設計時に後続のオペレーターに送信できますが、最終的な出力スキーマを確認するには、ユーザーが後続のオペレーターに対してオペレーターを実行する必要があります。

次のいずれかが発生すると、相関フィルター オペレーターの最終出力スキーマがクリアされます。

  • ユーザーは、相関フィルターの構成プロパティを変更します。
  • ユーザーは、相関フィルターに接続されている入力を変更します。
  • ユーザーは、相関フィルターのステップ実行結果をクリアします。

この場合、後続のオペレーターに送信される出力スキーマは、設計時に定義された部分スキーマになります (したがって、後続のオペレーターは無効になる可能性があります)。ユーザーは、相関フィルター オペレーターを再度実行して、新しい出力スキーマを送信する必要があります。