行クレンザー
このオペレーターは、指定された行完全性基準に従ってレコードを削除します。
情報一覧
ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。
|
パラメーター |
説明 |
|---|---|
| カテゴリー | トランスフォーム |
| データ ソース タイプ | TIBCO® Data Virtualization |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | TIBCO® DV, Apache Spark 3.2 以降 |
アルゴリズム
このオペレーターは、一連のルールを適用して不完全な行を削除します。ユーザーが注目するカラムを選択し、フィルタリング条件を設定します。この条件に従って、行が選択的に削除されます。
選択したカラムの Null 値の数が各行ごとに計算されます。入力ルールは、残りの行に望ましい制限の Null カラムが含まれるように適用されます。
入力
入力は単一の表形式のデータセットです。
構成
次の表に、行クレンザー オペレーターの構成の詳細を示します。
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 使用するカラム | Null 値をチェックするカラムを指定します。 [カラムの選択] をクリックして、必要なカラムを選択します。 |
| 行を削除する前にどれだけの選択カラムが Null でなければならないか | 計算するフィルタリング制限を指定します。次の値が使用可能です。
デフォルト: すべて |
| パーセンテージ(%) / カラム数 |
計算するカラムの割合または数を指定します。前のパラメーターが カラムの割合として設定されている場合は、希望の割合を指定します。 カラム数として設定した場合は、希望のカラム数を指定します。前のパラメーターが [すべて] または [任意] に設定されている場合、このパラメーターは無視されます。 デフォルト: 80 |
| 出力スキーマ | 出力テーブルまたはビューのスキーマを指定します。 |
| 出力テーブル | 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。 |
| 結果の保存 | [はい] に設定すると、オペレーターは結果を保存します。 [いいえ] に設定すると、オペレーターは結果を保存しません。 |
出力
ビジュアル出力
不完全な行を削除した後のデータセットの出力を表示する表。
後続オペレーターへの出力
選択された行を含む単一の表形式のデータセット。
例
次の例では、行クレンザー オペレーターを使用して、指定されたデータセットのクレンジングされたデータを表示します。
データ
golf: このデータセットには次の情報が含まれています。
- 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
- 複数行 (14 行)。
パラメーター設定
golf データセットのパラメーター設定は次のとおりです。
-
使用するカラム: 天気概況、気温、湿度
-
行を削除する前に Null にする必要がある選択されたカラムの数: カラムの割合
-
パーセンテージ(%) / カラム数: 80
-
結果を保存: はい
出力
次の図は、golf データセットのパラメーター設定の出力を示しています。