ランダム サンプリング (DB)

入力データセットからデータ行を抽出し、ユーザーが指定したサンプルプロパティ (パーセンテージまたは行数) に従ってサンプルテーブル/ビューを生成します。

情報一覧

ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降を使用するワークフローでも使用できます。

パラメーター

説明
カテゴリー サンプル
データ ソース タイプ DB
出力を他のオペレーターに送信 はい
データ処理ツール なし

ノート: ランダム サンプリング (DB) オペレーターはデータベース データのみに使用されます。Hadoop データの場合は、ランダム サンプリング (HD) オペレーターを使用します。

入力

前のオペレーターからのデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
サンプル数 生成するサンプルの数。サンプルはデータベース テーブルまたはビューの形式です。たとえば、ユーザーがこのフィールドに 3 を入力すると、3 つのサンプル テーブル/ビューが生成されます。
サンプル・バイ パーセンテージまたは行数によるサンプルのサイズ。
サンプル サイズ 各サンプル データセットに対して生成する行の数。このプロパティは、[サンプル・バイ] プロパティと組み合わせて解釈されます。

  • パーセンテージ - 合計サンプルに含める行数を、入力データセットの行数のパーセンテージとして指定します。たとえば、ユーザーが 3 つのサンプルに対して 20%、30%、40% を入力し、入力データセットに 10,000 行が含まれる場合、各サンプル データセットには 2000、3000、4000 行が含まれ、合計 9,000 行が選択されます。

    [ディスジョイント] プロパティが [true] の場合、合計集計パーセンテージは 100% 未満である必要があります。

  • - 各サンプル データセットに含める正確な行数を指定します。

詳細については、「サンプルサイズの定義 ダイアログ」のヘルプを参照してください。
ランダム シード 擬似ランダム行抽出に使用されるシード。

  • シードは、ランダム サンプリング アルゴリズムが擬似乱数の生成を開始する番号です。
  • この値の範囲は 0 ~ 1 です。
  • ランダム シード 値が指定されていない場合は、別のシステム生成シード値が使用されます。

一貫性 オペレーターがサンプル データ生成ごとに常に同じランダム行のセットを作成するかどうかを決定します。
  • true - サンプル数、サンプル サイズ、ランダム シードの値が変更されない限り、サンプル データの生成は一貫しています。 [true] に設定した場合、[置換][false] にする必要があります。 キー カラムを設定するには、[true] にする必要があります。
  • false - オペレーターが実行されるたびに、異なるランダム サンプルが作成されます。 [false] に設定すると、[ランダム シード] が無効になります。

デフォルト値: false

置換 これが置換を伴うサンプリングであるか、置換なしのサンプリングであるかを指定します。

  • true - 置換を伴うサンプリング。
  • false (デフォルト) - 置換なしでサンプリングします。

[置換] が選択されている場合、[一貫性] プロパティと [ディスジョイント] プロパティは両方とも [false] に設定され、無効になります。

ディスジョイント 各サンプルをデータセット全体から抽出するか、前のサンプルを除外した後の残りの行から抽出するかを指定します。

  • [ディスジョイント] を選択すると、異なるサンプルに同じデータが表示されなくなります。
  • [サンプル・バイ][パーセンテージ] タイプを指定した場合、すべてのサンプル パーセンテージの合計が 100 を超えてはなりません。

[true] に設定した場合、[置換][false] にする必要があります。

キー カラム [一貫性] プロパティと組み合わせて使用されます。

  • [カラムの選択] をクリックすると、カラムの選択 ダイアログが表示されます。このダイアログは、擬似ランダム サンプル データセットを生成する前にデータの順序を確認するためにカラムを選択するために使用されます。
  • ランダム サンプリング オペレーターは、これらのキーカラムを使用して入力データセットからの行の順序を保証し、擬似ランダム サンプル データセットの生成が毎回一貫するようにします。
  • キー カラムが指定されていない場合、ランダム サンプリングオペレーターは、入力データセットの行の順序が一貫していると想定します。

詳細については、「キー カラム ダイアログ」を参照してください。
出力スキーマ 出力テーブルまたはビューのスキーマ。
出力テーブル 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。
ストレージパラメーター オペレーター出力の詳細なデータベース設定。 [テーブル] 出力でのみ使用できます。

詳細については、「ストレージ パラメーター ダイアログ」を参照してください。

存在する場合は削除 既存のテーブルを上書きするかどうかを指定します。
  • はい - その名前のテーブルが存在する場合、結果を保存する前にテーブルが削除されます。
  • いいえ - その名前のテーブルが存在する場合、結果ウィンドウにエラー メッセージが表示されます。

出力

ビジュアル出力
生成された各サンプルの出力テーブル/ビューのデータ行が表示されます (最大 2000 行のデータ)。
データ出力
作成されたサンプル データ テーブルのデータセット。通常、データセットは、Train や Test などのサンプル セレクター オペレーターに渡され、後続のオペレーターで使用するサンプルを選択します。

ランダムサンプリングの例