リ・サンプリング

このオペレーターは、単一カラム内の値の分布を変更します。このオペレーターを使用すると、選択したカラムのすべての値のバランスをとることも、1 つの値のみの比率を変更することもできます。

情報一覧

ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。

パラメーター

説明
カテゴリー サンプル
データ ソース タイプ TIBCO® Data Virtualization
出力を他のオペレーターに送信 はい
データ処理ツール TIBCO® DV, Apache Spark 3.2 以降

入力

少なくとも 1 つのカテゴリー カラムを持つ単一の表形式のデータセット。

不正な値または欠落している値
選択した リ・サンプリングするカラム に Null 値が含まれる行は、リ・サンプリングの前にデータセットから削除されます。他のカラムの Null 値は結果に影響しません。

制限事項

入力データには、100 未満の個別の値を持つカテゴリー カラムが少なくとも 1 つ必要です。

構成

次の表に、リ・サンプリング オペレーターの構成の詳細を示します。

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
リ・サンプリングするカラム 個別の値が 100 未満のカテゴリー カラムを指定します。カラムは、文字列ブール整数、または ロング データ タイプである必要があります。データセットに他のデータ タイプのカラムがある場合は、このオペレーターを実行する前にそれらをキャストする必要があります。
選択したカラムのすべての値のバランスをとる 選択したカラムのすべての値のバランスを取るかどうかを指定します。

[はい] を選択すると、最も一般的な値の行数と一致するように行をアップ・サンプリングして、選択したカラムのすべての値のバランスがとれます。[置換付きサンプル][はい] である必要があり、[リ・サンプリングする選択されたカラムの単一値] に入力されたテキストは無視されます。

選択したカラムの値を 1 つだけリ・サンプリングするには、[いいえ] を選択します。ユーザーは、[リ・サンプリング用に選択されたカラムからの単一値][アップ・サンプリングまたはダウン・サンプリングの乗数] の値を入力する必要があります。

たとえば、データセットに、選択したカラムに次の分布を持つ 3 つの異なる値が含まれているとします。

カウント
A100
B75
C50

[はい] を選択すると、出力は次のように分布します。

カウント
A100
B100
C100

[いいえ] が選択され、ユーザーが値 B を乗数 3 でリ・サンプリングすることを選択した場合、出力は次の分布になります。

カウント
A100
B225
C50

ノート: 正確さ (より低速) パラメーターの設定に応じて、出力で正確なカウントまたはおおよそのカウントを取得できます。
リ・サンプリング用に選択したカラムからの単一の値 [リ・サンプルするカラム] で選択したカラムに表示される文字列または数値を指定します。選択したカラムに値が存在しない場合、オペレーターの実行時にエラーが表示されます。

このパラメーターは、[選択したカラムのすべての値のバランス][いいえ] に設定されている場合に必要です。

アップ・サンプリングまたはダウン・サンプリングの乗算器 選択したカラムと値をリ・サンプリングするために使用される乗算係数を表す正の 10 進数を指定します。

このパラメーターは、[選択したカラムのすべての値のバランス][いいえ] に設定されている場合に必要です。

置換を含むサンプル サンプルが置換の有無を指定します。次の設定が推奨されます。
  • 1 以下の乗数の場合、サンプルに置換があるかどうかを指定します。
  • 乗数が 1 より大きい場合は、[はい] を選択して行を抽出し、置換します。
正確さ (低速) 正確なリ・サンプリングが必要かどうかを指定します。

小規模なデータセットの場合は、オプション [正確さ (低速)] = [はい] を使用することを強くお勧めします。これは、不正確なリ・サンプリングでは、値の出力分布が予想される分布から異なる可能性があるためです。

正確な計算にはデータの追加パスが必要となり、オペレーターの実行が遅くなります。

ランダム シードを使用 ランダム シードを使用するかどうかを指定します。 [はい] を選択すると、指定されたランダム シードが使用され、再現可能な結果が得られます。システム生成のシード値を使用するには、[いいえ] を選択します。
ランダム シード 擬似ランダム生成に使用するシード。これは、[ランダム シードを使用][はい] の場合に使用される整数値です。
出力スキーマ 出力テーブルまたはビューのスキーマを指定します。
出力テーブル 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。
結果の保存 [はい] に設定すると、オペレーターは結果を保存します。 [いいえ] に設定すると、オペレーターは結果を保存しません。

出力

ビジュアル出力
  • パラメーター サマリー情報: 入力パラメーターとその現在の設定に関する情報が表示されます。
  • 出力: リ・サンプリングされたデータのデータセットの出力を表示するテーブル。

  • 分布サマリー: クラス、値、分布タイプなどの出力値分布に関する情報が表示されます。

後続のオペレーターへの出力
作成されたリ・サンプリングされたデータ テーブルを含む表形式のデータセット。

次の例は、リ・サンプリングオペレーターを示しています。

リ・サンプリング オペレーターのワークフロー

データ
golf: このデータセットには次の情報が含まれています。
  • 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
  • 複数行 (14 行)。
パラメーター設定
golf データセットのパラメーター設定は次のとおりです。
  • リ・サンプルするカラム: プレー

  • 選択したカラムのすべての値のバランスを取る: いいえ

  • 選択したカラムからのリ・サンプリング用の単一値: はい

  • アップ・サンプリングまたはダウン・サンプリングの乗数: 2.2

  • 置換付きサンプル: はい

  • 正確さ (低速): はい

  • ランダム シードを使用: いいえ

  • 結果を保存: はい

結果
これらの図は、golf データセットのパラメーター設定の結果を示しています。
パラメーターのサマリー情報
リ・サンプリングオペレーター - パラメーターサマリー情報タブ
出力
リ・サンプリング オペレーター - [出力] タブ
配布サマリー
リ・サンプリングオペレーター - 「分布サマリー」タブ