ランダム サンプリング (HD)

入力データセットからデータ行を抽出し、ユーザーが指定したサンプルプロパティ (パーセンテージまたは行数) に従ってサンプルテーブル/ビューを生成します。

情報一覧

パラメーター

説明
カテゴリー サンプル
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール MapReduce
ノート:

ランダム サンプリング (HD) オペレーターは、Hadoop データのみに使用されます。データベース データの場合は、ランダム サンプリング (DB) オペレーターを使用します。

入力

前のオペレーターからのデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
サンプル数 生成するサンプルの数。サンプルは Hadoop ファイルの形式です。たとえば、ユーザーがこのフィールドに 3 を入力すると、3 つのサンプル ファイルが生成されます。
サンプル・バイ パーセンテージまたは行数によるサンプルのサイズ。
サンプル サイズ 各サンプル データセットに対して生成する行の数。このプロパティは、[サンプル・バイ] プロパティと組み合わせて解釈されます。

  • パーセンテージ - 合計サンプルに含める行数を、入力データセットの行数のパーセンテージとして指定します。たとえば、ユーザーが 3 つのサンプルに対して 20%、30%、40% を入力し、入力データセットに 10,000 行が含まれる場合、各サンプル データセットには 2000、3000、4000 行が含まれ、合計 9,000 行が選択されます。

    [ディスジョイント] プロパティが [true] の場合、合計集計パーセンテージは 100% 未満である必要があります。

  • - 各サンプル データセットに含める正確な行数を指定します。

詳細については、「サンプルサイズの定義 ダイアログ」のヘルプを参照してください。
ランダム シード 擬似ランダム行抽出に使用されるシード。
  • シードは、ランダム サンプリング アルゴリズムが擬似乱数の生成を開始する番号です。
  • この値の範囲は 0 ~ 1 です。
  • ランダム シード 値が指定されていない場合は、別のシステム生成シード値が使用されます。
一貫性 オペレーターがサンプル データ生成ごとに常に同じランダム行のセットを作成するかどうかを決定します。
  • true - サンプル数、サンプル サイズ、ランダム シードの値が変更されない限り、サンプル データの生成は一貫しています。 [true] に設定した場合、[置換][false] にする必要があります。 [キー カラム]を設定するには、[true] にする必要があります。
  • false (デフォルト) - オペレーターが実行されるたびに、異なるランダム サンプルが作成されます。 [false] に設定すると、[ランダム シード] が無効になります。
置換 1 つのデータ行を複数回選択できることを指定します。

  • true - 置換を伴うサンプリング。
  • false (デフォルト) - 置換なしのサンプリング。1 つの行は 1 回だけ選択できます。

[true] に設定すると、[一貫性] プロパティと [ディスジョイント] プロパティの両方が [false] に設定され、無効になります。

ディスジョイント 各サンプルをデータセット全体から抽出するか、前のサンプルを除外した後の残りの行から抽出するかを指定します。

  • [ディスジョイント] を選択すると、異なるサンプルに同じデータが表示されなくなります。
  • [サンプル・バイ][パーセンテージ] タイプを指定した場合、すべてのサンプル パーセンテージの合計が 100 を超えてはなりません。

[true] に設定した場合、[置換][false] にする必要があります。

結果を保存しますか? 結果を保存するかどうかを指定します。
  • true - 結果が保存されます。
  • false - データセットは保存せずに次のオペレーターに渡されます。
結果ロケーション オペレーターの結果が保存される HDFS ディレクトリ。これはメイン ディレクトリであり、そのサブディレクトリは [結果名]で指定されます。 [ファイルの選択] をクリックして Hadoop ファイル エクスプローラー ダイアログ を開き、ストレージの場所を参照します。テキストを直接編集しないでください。
結果名 結果を保存するファイルの名前。
上書き そのパスとファイル名の既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプションは次のとおりです。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプションは次のとおりです。

  • Deflate
  • Snappy
  • 圧縮なし

出力

ビジュアル出力
生成された各サンプルのデータ行が表示されます (最大 2000 行のデータ)。
データ出力
サンプルファイルのデータセットを作成しました。通常、データセットは、Train や Test などのサンプル セレクター オペレーターに渡され、後続のオペレーターで使用するサンプルを選択します。

ランダムサンプリングの例