ランダム サンプリング (DB)
入力データセットからデータ行を抽出し、ユーザーが指定したサンプルプロパティ (パーセンテージまたは行数) に従ってサンプルテーブル/ビューを生成します。
情報一覧
ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降を使用するワークフローでも使用できます。
|
パラメーター |
説明 |
|---|---|
| カテゴリー | サンプル |
| データ ソース タイプ | DB |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | なし |
ノート: ランダム サンプリング (DB) オペレーターはデータベース データのみに使用されます。Hadoop データの場合は、ランダム サンプリング (HD) オペレーターを使用します。
入力
前のオペレーターからのデータセット。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| サンプル数 | 生成するサンプルの数。サンプルはデータベース テーブルまたはビューの形式です。たとえば、ユーザーがこのフィールドに 3 を入力すると、3 つのサンプル テーブル/ビューが生成されます。 |
| サンプル・バイ | パーセンテージまたは行数によるサンプルのサイズ。 |
| サンプル サイズ | 各サンプル データセットに対して生成する行の数。このプロパティは、[サンプル・バイ] プロパティと組み合わせて解釈されます。
|
| ランダム シード | 擬似ランダム行抽出に使用されるシード。
|
| 一貫性 | オペレーターがサンプル データ生成ごとに常に同じランダム行のセットを作成するかどうかを決定します。
デフォルト値: false |
| 置換 | これが置換を伴うサンプリングであるか、置換なしのサンプリングであるかを指定します。
[置換] が選択されている場合、[一貫性] プロパティと [ディスジョイント] プロパティは両方とも [false] に設定され、無効になります。 |
| ディスジョイント | 各サンプルをデータセット全体から抽出するか、前のサンプルを除外した後の残りの行から抽出するかを指定します。
[true] に設定した場合、[置換] は [false] にする必要があります。 |
| キー カラム | [一貫性] プロパティと組み合わせて使用されます。
|
| 出力スキーマ | 出力テーブルまたはビューのスキーマ。 |
| 出力テーブル | 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。 |
| ストレージパラメーター | オペレーター出力の詳細なデータベース設定。 [テーブル] 出力でのみ使用できます。 詳細については、「ストレージ パラメーター ダイアログ」を参照してください。 |
| 存在する場合は削除 | 既存のテーブルを上書きするかどうかを指定します。
|
出力
ビジュアル出力
生成された各サンプルの出力テーブル/ビューのデータ行が表示されます (最大 2000 行のデータ)。
データ出力
作成されたサンプル データ テーブルのデータセット。通常、データセットは、Train や Test などのサンプル セレクター オペレーターに渡され、後続のオペレーターで使用するサンプルを選択します。
例