ランダム サンプリング
このオペレーターは、入力データセットからデータ行を抽出し、ユーザーが指定したサンプル プロパティ (パーセンテージまたは行数) に従ってサンプル テーブルまたはビューを生成します。
情報一覧
ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。
|
パラメーター |
説明 |
|---|---|
| カテゴリー | サンプル |
| データ ソース タイプ | TIBCO® Data Virtualization |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | TIBCO® DV, Apache Spark 3.2 以降 |
入力
入力は単一の表形式のデータセットです。
不正な値または欠落している値
Null 値は許されず、エラーとなります 。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| サンプル数 | 生成するサンプルの数を指定します。サンプルはデータベース テーブルまたはビューの形式です。たとえば、ユーザーがこのフィールドに 3 を入力すると、3 つのサンプル テーブルまたはビューが生成されます。 |
| サンプル・バイ | サンプルのサイズを指定します。次の値が使用可能です。
|
| サンプル サイズ | 各サンプル データセットに対して生成する行数を指定します。このプロパティは、[サンプル・バイ] プロパティと組み合わせて解釈されます。
|
| 一貫性 | オペレーターがサンプル データ生成ごとに常に同じランダム行のセットを作成するかどうかを決定します。
デフォルト: false |
| ランダム シード | 擬似ランダム生成に使用するシード。
|
| 置換 | サンプリングに置換ありか置換なしかを指定します。
[置換] が選択されている場合、[一貫性] プロパティと [ディスジョイント] プロパティは両方とも [false] に設定され、無効になります。 |
| ディスジョイント | 各サンプルをデータセット全体から抽出するか、前のサンプルを除外した後の残りの行から抽出するかを指定します。
[true] に設定されている場合、[置換] パラメーターは [false] にする必要があります。 |
| キー カラム | 一貫性 プロパティと組み合わせて使用されます。
|
| 出力スキーマ | 出力テーブルまたはビューのスキーマを指定します。 |
| 出力テーブル | 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。 |
| 結果の保存 | [はい] に設定すると、オペレーターは結果を保存します。 [いいえ] に設定すると、オペレーターは結果を保存しません。 |
出力
ビジュアル出力
出力: 生成された各サンプルの出力テーブルまたはビューのデータ行が表示されます。
後続のオペレーターへの出力
サンプル データ テーブルの表形式のデータセットが作成されました。通常、データセットは、Train や Test などの Sample Selector オペレーターに渡され、後続のオペレーターで使用するサンプルを選択します。オペレーターの実行の結果として、追加のカラムが出力に生成されます。
tds_sample_column: このカラムは、行が割り当てられているサンプルを示し、サンプル セレクター オペレーターによって使用されます。
例
次の例では、入力データセットからデータ行を抽出し、ユーザーが定義したサンプル プロパティに従ってそれらを表示します。
データ
golf: このデータセットには次の情報が含まれています。
- 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
- 複数行 (14 行)。
パラメーター設定
golf データセットのパラメーター設定は次のとおりです。
-
サンプル数: 2
-
サンプル・バイ: パーセンテージ
-
サンプル サイズ: 10%、20%
-
一貫性: true
-
ランダム シード: 1
-
置換: false
-
ディスジョイント: true
-
キー カラム: 天気概況、気温、湿度、風
-
結果を保存: はい
出力
次の図は、golf データセットのパラメーター設定の出力を示しています。