ランダム サンプリング

このオペレーターは、入力データセットからデータ行を抽出し、ユーザーが指定したサンプル プロパティ (パーセンテージまたは行数) に従ってサンプル テーブルまたはビューを生成します。

情報一覧

ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。

パラメーター

説明
カテゴリー サンプル
データ ソース タイプ TIBCO® Data Virtualization
出力を他のオペレーターに送信 はい
データ処理ツール TIBCO® DV, Apache Spark 3.2 以降

入力

入力は単一の表形式のデータセットです。

不正な値または欠落している値
Null 値は許されず、エラーとなります 。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
サンプル数 生成するサンプルの数を指定します。サンプルはデータベース テーブルまたはビューの形式です。たとえば、ユーザーがこのフィールドに 3 を入力すると、3 つのサンプル テーブルまたはビューが生成されます。
サンプル・バイ サンプルのサイズを指定します。次の値が使用可能です。
  • パーセンテージ

  • 行数

サンプル サイズ 各サンプル データセットに対して生成する行数を指定します。このプロパティは、[サンプル・バイ] プロパティと組み合わせて解釈されます。

  • パーセンテージ - 合計サンプルに含める行数を、入力データセットの行数のパーセンテージとして指定します。たとえば、ユーザーが 3 つのサンプルに対して 20%、30%、および 40% を入力し、入力データセットに 10,000 行が含まれる場合、各サンプル データセットには 2000、3000、4000 行が含まれ、合計 9,000 行が選択されます。

    [ディスジョイント] プロパティが [true] の場合、合計の集計パーセンテージは 100%未満である必要があります。

  • - 各サンプル データセットに含める正確な行数を指定します。

詳細については、「サンプルサイズの定義」ダイアログ ダイアログのヘルプを参照してください。
一貫性 オペレーターがサンプル データ生成ごとに常に同じランダム行のセットを作成するかどうかを決定します。
  • true - サンプル数、サンプル サイズ、ランダム シードの値が変更されない限り、サンプル データの生成は一貫しています。 [true] に設定した場合、[置換][false] にする必要があります。 キー カラムを設定するには、[true] である必要があります。
  • false - オペレーターが実行されるたびに、異なるランダム サンプルが作成されます。 [false] に設定すると、[ランダム シード] が無効になります。

デフォルト: false

ランダム シード 擬似ランダム生成に使用するシード。

  • シードは、ランダム サンプリング アルゴリズムが擬似乱数の生成を開始する番号です。
  • この値の範囲は 0 ~ 1 です。
  • ランダム シード 値が指定されていない場合は、システムによって生成された別のシード値が使用されます。

置換 サンプリングに置換ありか置換なしかを指定します。

  • true - 置換を伴うサンプリング。
  • false - 置換なしでサンプリングします。これはデフォルトの選択です。

[置換] が選択されている場合、[一貫性] プロパティと [ディスジョイント] プロパティは両方とも [false] に設定され、無効になります。

ディスジョイント 各サンプルをデータセット全体から抽出するか、前のサンプルを除外した後の残りの行から抽出するかを指定します。
  • [ディスジョイント] を選択すると、異なるサンプルに同じデータが表示されなくなります。
  • [サンプル・バイ] プロパティに [パーセンテージ] タイプを指定する場合、すべてのサンプル パーセンテージの合計が 100%を超えてはなりません。

[true] に設定されている場合、[置換] パラメーターは [false] にする必要があります。

キー カラム 一貫性 プロパティと組み合わせて使用されます。
  • [カラムの選択] をクリックすると、カラムの選択 ダイアログが表示されます。このダイアログは、擬似ランダム サンプル データセットを生成する前にデータの順序を確認するためにカラムを選択するために使用されます。
  • ランダム サンプリング オペレーターは、これらのキーカラムを使用して入力データセットからの行の順序を保証し、擬似ランダム サンプル データセットの生成が毎回一貫するようにします。
  • キー カラムが指定されていない場合、ランダム サンプリングオペレーターは、入力データセットの行の順序が一貫していると想定します。
詳細については、「キー カラム ダイアログ」を参照してください。
出力スキーマ 出力テーブルまたはビューのスキーマを指定します。
出力テーブル 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。
結果の保存 [はい] に設定すると、オペレーターは結果を保存します。 [いいえ] に設定すると、オペレーターは結果を保存しません。

出力

ビジュアル出力
出力: 生成された各サンプルの出力テーブルまたはビューのデータ行が表示されます。
後続のオペレーターへの出力
サンプル データ テーブルの表形式のデータセットが作成されました。通常、データセットは、Train や Test などの Sample Selector オペレーターに渡され、後続のオペレーターで使用するサンプルを選択します。オペレーターの実行の結果として、追加のカラムが出力に生成されます。
tds_sample_column: このカラムは、行が割り当てられているサンプルを示し、サンプル セレクター オペレーターによって使用されます。

次の例では、入力データセットからデータ行を抽出し、ユーザーが定義したサンプル プロパティに従ってそれらを表示します。

ランダム サンプリング オペレーターのワークフロー
データ
golf: このデータセットには次の情報が含まれています。
  • 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
  • 複数行 (14 行)。
パラメーター設定
golf データセットのパラメーター設定は次のとおりです。
  • サンプル数: 2

  • サンプル・バイ: パーセンテージ

  • サンプル サイズ: 10%、20%

  • 一貫性: true

  • ランダム シード: 1

  • 置換: false

  • ディスジョイント: true

  • キー カラム: 天気概況、気温、湿度、風

  • 結果を保存: はい

出力
次の図は、golf データセットのパラメーター設定の出力を示しています。
ランダム サンプリング オペレーターの出力