階層化サンプリング
入力データセットからデータ行を抽出し、ユーザーが指定したサンプルプロパティに従ってサンプルテーブル/ビューを生成します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | サンプル |
| データ ソース タイプ | DB |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | なし |
ユーザーはサンプルカラムを選択します。サンプル カラム内のすべての個別の値の割合は、生成されたすべてのサンプルで変化しません。
入力
前のオペレーターからのデータセット。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| サンプリング カラム | 生成されたすべてのサンプルにおいて、すべての個別の値の割合が変更されないカラム。 たとえば、カラム「性別」がサンプル カラムとして選択され、そこに「男性」と「女性」の 2 つの異なる値が含まれており、「男性」の値が 40%、「女性」の値が 60% ある場合、すべてのサンプルが生成されたデータには、「性別」カラムに 40% の「男性」値と 60% の「女性」値が含まれています。 |
| サンプル数 | 生成するサンプルの数。 サンプルはデータベース テーブル/ビューの形式です。たとえば、サンプル数が 3 の場合、3 つのサンプル テーブル/ビューが生成されます。 |
| サンプル | パーセンテージまたは行数によるサンプルのサイズ。 [サンプル・バイ] が パーセンテージ に設定されている場合、すべてのサンプル パーセンテージの合計が 100 を超えてはなりません。 |
| サンプルサイズ | 各サンプル データセットに対して生成する行の数。このプロパティは、サンプル・バイ プロパティと組み合わせて解釈されます。
|
| ランダム シード | 擬似ランダム行抽出に使用されるシード。シードは、ランダム サンプリング アルゴリズムが擬似乱数の生成を開始する番号です。 この値の範囲は 0 ~ 1 です。 ランダム シード値が指定されていない場合は、別のシステム生成シード値が使用されます。 |
| 一貫性 | オペレーターがサンプル データ生成ごとに常に同じ行セットを作成するかどうかを指定します。
|
| ディス・ジョイント | 各サンプルをデータセット全体から抽出するか、前のサンプルを除外した後の残りの行から抽出するかを指定します。 [ディス・ジョイント] が [true] に設定されている場合、異なるサンプルに同じデータは表示されません。 デフォルト値: false |
| キー カラム | [一貫性] プロパティと組み合わせて使用されます。
|
| 出力スキーマ | 出力テーブルまたはビューのスキーマ。 |
| 出力テーブル | 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。 |
| ストレージパラメーター | オペレーター出力の詳細なデータベース設定。 [テーブル] 出力でのみ使用できます。 詳細については、「ストレージ パラメーター ダイアログ」を参照してください。 |
| 存在する場合は削除 | 既存のテーブルを上書きするかどうかを指定します。
|