階層化サンプリング

入力データセットからデータ行を抽出し、ユーザーが指定したサンプルプロパティに従ってサンプルテーブル/ビューを生成します。

情報一覧

パラメーター

説明
カテゴリー サンプル
データ ソース タイプ DB
出力を他のオペレーターに送信 はい
データ処理ツール なし

ユーザーはサンプルカラムを選択します。サンプル カラム内のすべての個別の値の割合は、生成されたすべてのサンプルで変化しません。

入力

前のオペレーターからのデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
サンプリング カラム 生成されたすべてのサンプルにおいて、すべての個別の値の割合が変更されないカラム。

たとえば、カラム「性別」がサンプル カラムとして選択され、そこに「男性」と「女性」の 2 つの異なる値が含まれており、「男性」の値が 40%、「女性」の値が 60% ある場合、すべてのサンプルが生成されたデータには、「性別」カラムに 40% の「男性」値と 60% の「女性」値が含まれています。

サンプル数 生成するサンプルの数。

サンプルはデータベース テーブル/ビューの形式です。たとえば、サンプル数が 3 の場合、3 つのサンプル テーブル/ビューが生成されます。

サンプル パーセンテージまたは行数によるサンプルのサイズ。

[サンプル・バイ]パーセンテージ に設定されている場合、すべてのサンプル パーセンテージの合計が 100 を超えてはなりません。

サンプルサイズ 各サンプル データセットに対して生成する行の数。このプロパティは、サンプル・バイ プロパティと組み合わせて解釈されます。

  • パーセンテージ - 合計サンプルに含める行数を、入力データセットの行数のパーセンテージとして指定します。たとえば、ユーザーが 3 つのサンプルに対して 20%、30%、40% を入力し、入力データセットに 10,000 行が含まれる場合、各サンプル データセットには 2000、3000、4000 行が含まれ、合計 9,000 行が選択されます。

    [ディス・ジョイント] プロパティが [true] の場合、合計集計パーセンテージは 100% 未満である必要があります。

  • - 各サンプル データセットに含める正確な行数を指定します。

詳細については、「サンプル サイズ定義ダイアログ」のヘルプを参照してください。
ランダム シード 擬似ランダム行抽出に使用されるシード。シードは、ランダム サンプリング アルゴリズムが擬似乱数の生成を開始する番号です。

この値の範囲は 0 ~ 1 です。

ランダム シード値が指定されていない場合は、別のシステム生成シード値が使用されます。

一貫性 オペレーターがサンプル データ生成ごとに常に同じ行セットを作成するかどうかを指定します。

  • [一貫性][true] に設定されている場合、サンプル数、サンプル サイズ、ランダム シード の値を条件として、サンプル データの生成は一貫しています。変わらないまま。
    ノート: ランダム シード 値が指定されている場合、[一貫性] プロパティは自動的に true に設定されます。
  • [一貫性][false] (デフォルト) に設定されている場合、毎回異なるランダム サンプルが作成されます。

ディス・ジョイント 各サンプルをデータセット全体から抽出するか、前のサンプルを除外した後の残りの行から抽出するかを指定します。

[ディス・ジョイント][true] に設定されている場合、異なるサンプルに同じデータは表示されません。

デフォルト値: false

キー カラム [一貫性] プロパティと組み合わせて使用されます。

  • [カラムの選択] をクリックすると、カラムの選択 ダイアログが表示されます。このダイアログは、擬似ランダム サンプル データセットを生成する前にデータの順序を確認するためにカラムを選択するために使用されます。
  • 階層化サンプリング オペレーターは、これらのキーカラムを使用して入力データセットからの行の順序を保証し、擬似ランダム サンプル データセットの生成が毎回一貫するようにします。
  • キー カラムが指定されていない場合、階層化サンプリング オペレーターは、入力データセットの行の順序が一貫していると想定します。

詳細については、「キー カラム ダイアログ」を参照してください。
出力スキーマ 出力テーブルまたはビューのスキーマ。
出力テーブル 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。
ストレージパラメーター オペレーター出力の詳細なデータベース設定。 [テーブル] 出力でのみ使用できます。

詳細については、「ストレージ パラメーター ダイアログ」を参照してください。

存在する場合は削除 既存のテーブルを上書きするかどうかを指定します。
  • はい - その名前のテーブルが存在する場合、結果を保存する前にテーブルが削除されます。
  • いいえ - その名前のテーブルが存在する場合、結果ウィンドウにエラー メッセージが表示されます。

出力

ビジュアル出力
生成された各サンプルの出力テーブル/ビューのデータ行が表示されます (最大 2000 行のデータ)。
データ出力
サンプルデータテーブルのデータセットが作成されます。通常、出力はサンプル セレクター オペレーターに接続され、後続のオペレーターで使用するサンプルを選択します。