リ・サンプリング
単一列内の値の分布を変更します。このオペレーターを使用すると、選択したカラムのすべての値のバランスをとることも、1 つの値のみの比率を変更することもできます。これを使用してアップサンプリングまたはダウンサンプリングできます。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | サンプル |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | Spark |
入力
少なくとも 1 つのカテゴリー カラムを持つ Hadoop ファイル。
制限事項
入力データには、100 未満の個別の値を持つカテゴリー カラムが少なくとも 1 つ必要です。
構成
| パラメーター | 説明 | ||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 | ||||||||||||||||||||||||
| リ・サンプリングするカラム
*必須 |
個別の値が 100 未満のカテゴリ列。 | ||||||||||||||||||||||||
| 選択したカラムのすべての値のバランスをとる | [はい] は、最も一般的な値の行数と一致するように行をアップ・サンプリングすることにより、選択したカラムのすべての値のバランスをとります。 [置換を伴うサンプル] は [はい] である必要があり、[リ・サンプリングする選択されたカラムの単一値] に入力されたテキストは無視されます。 たとえば、データセットの選択したカラムに次のような分布を持つ 3 つの異なる値があるとします。
出力には次の分布があります。
|
||||||||||||||||||||||||
| リ・サンプリング用に選択したカラムからの単一の値 | [選択したカラムのすべての値のバランス] が [いいえ] の場合に必須です。 [リ・サンプルするカラム] で選択したカラムに含まれる文字列または数値。値がカラムに存在しない場合、オペレーターの実行時にエラーが発生します。 |
||||||||||||||||||||||||
| アップ・サンプリングまたはダウン・サンプリングの乗算器 | [選択したカラムのすべての値のバランス] が [いいえ] の場合に必須です。 選択したカラムと値をリ・サンプリングするための乗算係数である正の 10 進数。 |
||||||||||||||||||||||||
| 置換を含むサンプル |
|
||||||||||||||||||||||||
| 正確さ (低速) | 正確な計算にはデータの追加パスが必要となり、オペレーターの実行が遅くなります。不正確なリ・サンプリングの場合、値の出力分布は予想される分布とは異なる場合があります。 | ||||||||||||||||||||||||
| ランダム シードを使用 |
|
||||||||||||||||||||||||
| ランダム シード | 擬似ランダム行抽出のシードとして使用される整数値。 [ランダム シードを使用] が [はい] の場合にのみ使用されます。 | ||||||||||||||||||||||||
| Null データにより削除された行をファイルに書き込む | [リ・サンプリングするカラム] に少なくとも 1 つの Null 値がある行は、リ・サンプリングの前にデータセットから削除されます。このパラメーターを使用すると、Null 値を含む行をファイルに書き込むかどうかを指定できます。 ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名には、_baddata という接尾辞が付けられます。
|
||||||||||||||||||||||||
| ストレージ フォーマット | 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。 一般的な形式は、Avro、CSV、TSV、または Parquet です。 |
||||||||||||||||||||||||
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプション。
利用可能な Avro 圧縮オプション。
|
||||||||||||||||||||||||
| 出力ディレクトリ | 出力ファイルを保存する場所。 | ||||||||||||||||||||||||
| 出力名 | 結果を含める名前。 | ||||||||||||||||||||||||
| 出力を上書き | そのパスにある既存のデータを削除するかどうかを指定します。
|
||||||||||||||||||||||||
| 高度な Spark 設定の自動最適化 |
|
出力
出力 タブには、出力データセットのプレビューが表示されます。
サマリー タブには、選択したパラメーターに関する情報、出力値の分布、および選択したカラムの Null 値によりデータから削除された行に関する情報が表示されます。
例