行クレンザー

このオペレーターは、指定された行完全性基準に従ってレコードを削除します。

行クレンザーオペレーター アイコン

情報一覧

ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。

パラメーター

説明
カテゴリー トランスフォーム
データ ソース タイプ TIBCO® Data Virtualization
出力を他のオペレーターに送信 はい
データ処理ツール TIBCO® DV, Apache Spark 3.2 以降

アルゴリズム

このオペレーターは、一連のルールを適用して不完全な行を削除します。ユーザーが注目するカラムを選択し、フィルタリング条件を設定します。この条件に従って、行が選択的に削除されます。

選択したカラムの Null 値の数が各行ごとに計算されます。入力ルールは、残りの行に望ましい制限の Null カラムが含まれるように適用されます。

入力

入力は単一の表形式のデータセットです。

構成

次の表に、行クレンザー オペレーターの構成の詳細を示します。

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
使用するカラム Null 値をチェックするカラムを指定します。 [カラムの選択] をクリックして、必要なカラムを選択します。
行を削除する前にどれだけの選択カラムが Null でなければならないか 計算するフィルタリング制限を指定します。次の値が使用可能です。

  • カラムの数
  • カラムの割合
  • すべて
  • 任意

デフォルト: すべて

パーセンテージ(%) / カラム数

計算するカラムの割合または数を指定します。前のパラメーターが カラムの割合として設定されている場合は、希望の割合を指定します。 カラム数として設定した場合は、希望のカラム数を指定します。前のパラメーターが [すべて] または [任意] に設定されている場合、このパラメーターは無視されます。

デフォルト: 80

出力スキーマ 出力テーブルまたはビューのスキーマを指定します。
出力テーブル 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。
結果の保存 [はい] に設定すると、オペレーターは結果を保存します。 [いいえ] に設定すると、オペレーターは結果を保存しません。

出力

ビジュアル出力
不完全な行を削除した後のデータセットの出力を表示する表。
後続オペレーターへの出力
選択された行を含む単一の表形式のデータセット。

次の例では、行クレンザー オペレーターを使用して、指定されたデータセットのクレンジングされたデータを表示します。

Row Cleanser オペレーターのワークフロー
データ
golf: このデータセットには次の情報が含まれています。
  • 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
  • 複数行 (14 行)。
パラメーター設定
golf データセットのパラメーター設定は次のとおりです。
  • 使用するカラム: 天気概況、気温、湿度

  • 行を削除する前に Null にする必要がある選択されたカラムの数: カラムの割合

  • パーセンテージ(%) / カラム数: 80

  • 結果を保存: はい

出力
次の図は、golf データセットのパラメーター設定の出力を示しています。
行クレンザーの出力