カラム クレンザー

このオペレーターは、指定されたカラムの完全性または差異基準に従ってカラムを削除します。

カラムクレンザーオペレーターアイコン

情報一覧

ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。

パラメーター

説明
カテゴリー トランスフォーム
データ ソース タイプ TIBCO® Data Virtualization
出力を他のオペレーターに送信 はい
データ処理ツール TIBCO® DV, Apache Spark 3.2 以降

アルゴリズム

このオペレーターは一連のルールを適用してカラムを削除し、カラムごとにフィルター条件を指定する負担を軽減します。ユーザーがテストするカラムを選択すると、フィルタリング条件が設定されます。この条件に従って、カラムが選択的に除去されます。

定義されたフィルタリング条件に従って、スパース性、高分散、および低分散チェックが計算されます。複数のフィルタリング条件を適用できます。変動係数の計算を含む低分散チェックが、平均がゼロですべて同一の値を持つカラムに適用されると、そのカラムは削除され、[サマリー] タブに警告が表示されます。

入力

入力は単一の表形式のデータセットです。

構成

次の表に、カラム クレンザー オペレーターの構成の詳細を示します。

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
カラムを選択し、連続カラムとして扱う カラムを連続カラムとして指定します。 ダブル または 整数 である必要があります。 [カラムの選択] をクリックして、必要なカラムを選択します。
ノート: [カラムを選択し、カテゴリー カラムとして扱う] パラメーターで選択されたカラムは使用できません。
カラムを選択し、カテゴリー カラムとして扱う カラムをカテゴリー カラムとして指定します。 [カラムの選択] をクリックして、必要なカラムを選択します。
ノート: [カラムを選択し、連続カラムとして扱う] パラメーターで選択したカラムは使用できません。
欠落行のパーセンテージが高いカラムを削除する (-1=無視、実数 0 ~ 100 を受け入れます) 欠損値の割合が指定された数値より大きいカラムを削除します。これはスパーシティ チェックとして知られています。値は -1、または 0 ~ 100 の実数です。

デフォルト: -1.0

ノート: このフィルタリング条件を無視するには、値を -1 に設定する必要があります。
個別の値の数がより大きいカテゴリー カラムを削除する (-1=無視、0 ~ 10000 の整数を受け入れます) 指定された数を超える個別の値の数を持つカテゴリー カラムを削除します。これは高分散チェックとして知られています。値は -1、または 0 ~ 10000 の整数です。

デフォルト: -1

ノート: このフィルタリング条件を無視するには、値を -1 に設定する必要があります。
行数のこのパーセンテージを超える個別の値の数を持つカテゴリー カラムを削除する (-1=無視、実数 0 ~ 100 を受け入れます) 指定された数値より高い個別値のパーセンテージを持つカテゴリー カラムを削除します。これは高分散チェックとして知られています。値は -1、または 0 ~ 100 の実数です。

デフォルト: -1

ノート: このフィルタリング条件を無視するには、値を -1 に設定する必要があります。
最も頻繁に使用されるカテゴリーのパーセンテージがより高いカテゴリー カラムを削除する (-1=無視、実数 0 ~ 100 を受け入れます) 指定された行のパーセンテージよりも頻繁に表示される、最も頻度の高いカテゴリーのカテゴリー カラムを削除します。これは低分散チェックとして知られています。値は -1、または 0 ~ 100 の実数です。

デフォルト: -1

ノート: このフィルタリング条件を無視するには、値を -1 に設定する必要があります。
変動係数(標準偏差を平均で割った値) が (-1=無視、実数 0 ~ 0.01 を受け入れます) より小さい数値カラムを削除する 変動係数が指定値より小さい連続カラムを削除します。これは低分散チェックとして知られています。値は -1、または 0 ~ 100 の実数です。

デフォルト: -1

ノート: このフィルタリング条件を無視するには、値を -1 に設定する必要があります。
出力スキーマ 出力テーブルまたはビューのスキーマを指定します。
出力テーブル 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。
結果の保存 [はい] に設定すると、オペレーターは結果を保存します。 [いいえ] に設定すると、オペレーターは結果を保存しません。

出力

ビジュアル出力
  • 出力: 定義されたフィルタリング条件を満たし、データ クリーニング チェックに合格したカラムで構成されるクリーン データのプレビュー。
  • サマリー: 削除されたカラムに関する情報が表示されます。
後続オペレーターへの出力
フィルター条件を満たすカラムで構成されるクリーンアップされたデータを含む単一の表形式データ。

次の例は、カラム クレンザー オペレーターを使用して、指定されたデータセットのクレンジングされたデータを示しています。

カラム クレンザー オペレーターのワークフロー
データ
人口統計: 次の情報を含む人口統計のデータセット:
  • ID、AGE_IN_YEARS、LEVEL_OF_EDUCATION、YEARS_WITH_CURRENT_EMPLOYER、YEARS_AT_CURRENT_ADDRESS などの複数のカラム。
  • 複数行 (850 行)。
パラメーター設定
[人口統計] データセットのパラメーター設定は次のとおりです。
  • 次のカラムを選択して連続する値として扱います: ID、AGE_IN_YEARS

  • 次のカラムを選択し、カテゴリー値として扱います: LEVEL_OF_EDUCATION、YEARS_WITH_CURRENT_EMPLOYER、YEARS_AT_CURRENT_ADDRESS

  • 欠落行の割合がより高いカラムを削除します (-1=無視、実数 0 ~ 100 を受け入れます): 20

  • 個別の値の数がより大きいカテゴリー カラムを削除します (-1=無視、0 ~ 10000 の整数を受け入れます): -1

  • 行数の設定パーセンテージを超える個別の値の数を持つカテゴリー カラムを削除します (-1=無視、実数 0 ~ 100 を受け入れます): -1.0

  • 最も頻繁に使用されるカテゴリーのパーセンテージがより高いカテゴリー カラムを削除します (-1=無視、実数 0 ~ 100 を受け入れます): 30

  • 変動係数(標準偏差を平均で割った値) が (-1=無視、実数 0 ~ 0.01 を受け入れます) より小さい数値カラムを削除します。: -1.0

  • 結果を保存: はい

結果
これらの図は、[人口統計] データセットのパラメーター設定の結果を示しています。
出力
カラム クレンザー オペレーター - [出力]タブ
サマリー
カラム クレンザーオペレーター - 「サマリー」タブ