リ・サンプリング

単一列内の値の分布を変更します。このオペレーターを使用すると、選択したカラムのすべての値のバランスをとることも、1 つの値のみの比率を変更することもできます。これを使用してアップサンプリングまたはダウンサンプリングできます。

情報一覧

パラメーター

説明
カテゴリー サンプル
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Spark

入力

少なくとも 1 つのカテゴリー カラムを持つ Hadoop ファイル。

値が不正または欠落しています
選択した [リ・サンプルするカラム] 内の Null 値を含む行は、リ・サンプリングの前にデータセットから削除されます。他のカラムの Null 値は結果に影響しません。

制限事項

入力データには、100 未満の個別の値を持つカテゴリー カラムが少なくとも 1 つ必要です。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
リ・サンプリングするカラム

*必須

個別の値が 100 未満のカテゴリ列。
選択したカラムのすべての値のバランスをとる [はい] は、最も一般的な値の行数と一致するように行をアップ・サンプリングすることにより、選択したカラムのすべての値のバランスをとります。

[置換を伴うサンプル][はい] である必要があり、[リ・サンプリングする選択されたカラムの単一値] に入力されたテキストは無視されます。

たとえば、データセットの選択したカラムに次のような分布を持つ 3 つの異なる値があるとします。

カウント
A100
B75
C50

出力には次の分布があります。

カウント
A100
B100
C100

[いいえ] は、選択したカラムの 1 つの値のみをリ・サンプリングします。ユーザーは、[リ・サンプリング用に選択されたカラムからの単一値][アップサンプリングまたはダウンサンプリングの乗数] の値を入力する必要があります。上記と同じ入力が与えられた場合、ユーザーが値 B を乗数 3 でリ・サンプリングすることを選択した場合、出力分布は次のようになります。

カウント
A100
B225
C50

リ・サンプリング用に選択したカラムからの単一の値 [選択したカラムのすべての値のバランス][いいえ] の場合に必須です。

[リ・サンプルするカラム] で選択したカラムに含まれる文字列または数値。値がカラムに存在しない場合、オペレーターの実行時にエラーが発生します。

アップ・サンプリングまたはダウン・サンプリングの乗算器 [選択したカラムのすべての値のバランス][いいえ] の場合に必須です。

選択したカラムと値をリ・サンプリングするための乗算係数である正の 10 進数。

置換を含むサンプル
  • 1 以下の乗数の場合、サンプルに置換があるかどうかを指定します。
  • 乗数が 1 より大きい場合は、[はい] をクリックして行を抽出し、置換します。
正確さ (低速) 正確な計算にはデータの追加パスが必要となり、オペレーターの実行が遅くなります。不正確なリ・サンプリングの場合、値の出力分布は予想される分布とは異なる場合があります。
ランダム シードを使用
  • [はい] をクリックすると、指定されたランダム シードが使用され、再現可能な結果が得られます。
  • システム生成のシード値を使用するには、[いいえ] をクリックします。
ランダム シード 擬似ランダム行抽出のシードとして使用される整数値。 [ランダム シードを使用][はい] の場合にのみ使用されます。
Null データにより削除された行をファイルに書き込む [リ・サンプリングするカラム] に少なくとも 1 つの Null 値がある行は、リ・サンプリングの前にデータセットから削除されます。このパラメーターを使用すると、Null 値を含む行をファイルに書き込むかどうかを指定できます。

ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名には、_baddata という接尾辞が付けられます。

  • ファイルに Null 行を書き込まない- Null 値データを削除して結果 UI に表示しますが、外部ファイルには書き込みません。
  • Null 行の書き込みまたはカウントを行わない (最速) - Null 値データを削除しますが、カウントして結果 UI に表示しません。
  • すべての Null 行をファイルに書き込む - Null 値データを削除し、削除されたすべての行を外部ファイルに書き込みます。

ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力

出力 タブには、出力データセットのプレビューが表示されます。

サマリー タブには、選択したパラメーターに関する情報、出力値の分布、および選択したカラムの Null 値によりデータから削除された行に関する情報が表示されます。

データ出力
リ・サンプリングされたデータセット。