ランダム サンプリング (HD)
入力データセットからデータ行を抽出し、ユーザーが指定したサンプルプロパティ (パーセンテージまたは行数) に従ってサンプルテーブル/ビューを生成します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | サンプル |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | MapReduce |
ノート:
ランダム サンプリング (HD) オペレーターは、Hadoop データのみに使用されます。データベース データの場合は、ランダム サンプリング (DB) オペレーターを使用します。
入力
前のオペレーターからのデータセット。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| サンプル数 | 生成するサンプルの数。サンプルは Hadoop ファイルの形式です。たとえば、ユーザーがこのフィールドに 3 を入力すると、3 つのサンプル ファイルが生成されます。 |
| サンプル・バイ | パーセンテージまたは行数によるサンプルのサイズ。 |
| サンプル サイズ | 各サンプル データセットに対して生成する行の数。このプロパティは、[サンプル・バイ] プロパティと組み合わせて解釈されます。
|
| ランダム シード | 擬似ランダム行抽出に使用されるシード。
|
| 一貫性 | オペレーターがサンプル データ生成ごとに常に同じランダム行のセットを作成するかどうかを決定します。
|
| 置換 | 1 つのデータ行を複数回選択できることを指定します。
[true] に設定すると、[一貫性] プロパティと [ディスジョイント] プロパティの両方が [false] に設定され、無効になります。 |
| ディスジョイント | 各サンプルをデータセット全体から抽出するか、前のサンプルを除外した後の残りの行から抽出するかを指定します。
[true] に設定した場合、[置換] は [false] にする必要があります。 |
| 結果を保存しますか? | 結果を保存するかどうかを指定します。
|
| 結果ロケーション | オペレーターの結果が保存される HDFS ディレクトリ。これはメイン ディレクトリであり、そのサブディレクトリは [結果名]で指定されます。 [ファイルの選択] をクリックして Hadoop ファイル エクスプローラー ダイアログ を開き、ストレージの場所を参照します。テキストを直接編集しないでください。 |
| 結果名 | 結果を保存するファイルの名前。 |
| 上書き | そのパスとファイル名の既存のデータを削除するかどうかを指定します。
|
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプションは次のとおりです。
利用可能な Avro 圧縮オプションは次のとおりです。
|
出力
ビジュアル出力
生成された各サンプルのデータ行が表示されます (最大 2000 行のデータ)。
データ出力
サンプルファイルのデータセットを作成しました。通常、データセットは、Train や Test などのサンプル セレクター オペレーターに渡され、後続のオペレーターで使用するサンプルを選択します。
例