リ・サンプリング
このオペレーターは、単一カラム内の値の分布を変更します。このオペレーターを使用すると、選択したカラムのすべての値のバランスをとることも、1 つの値のみの比率を変更することもできます。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | サンプル |
| データ ソース タイプ | TIBCO® Data Virtualization |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | TIBCO® DV, Apache Spark 3.2 以降 |
入力
少なくとも 1 つのカテゴリー カラムを持つ単一の表形式のデータセット。
制限事項
入力データには、100 未満の個別の値を持つカテゴリー カラムが少なくとも 1 つ必要です。
構成
次の表に、リ・サンプリング オペレーターの構成の詳細を示します。
| パラメーター | 説明 | ||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 | ||||||||||||||||||||||||
| リ・サンプリングするカラム | 個別の値が 100 未満のカテゴリー カラムを指定します。カラムは、文字列、ブール、整数、または ロング データ タイプである必要があります。データセットに他のデータ タイプのカラムがある場合は、このオペレーターを実行する前にそれらをキャストする必要があります。 | ||||||||||||||||||||||||
| 選択したカラムのすべての値のバランスをとる | 選択したカラムのすべての値のバランスを取るかどうかを指定します。 [はい] を選択すると、最も一般的な値の行数と一致するように行をアップ・サンプリングして、選択したカラムのすべての値のバランスがとれます。[置換付きサンプル] は [はい] である必要があり、[リ・サンプリングする選択されたカラムの単一値] に入力されたテキストは無視されます。 選択したカラムの値を 1 つだけリ・サンプリングするには、[いいえ] を選択します。ユーザーは、[リ・サンプリング用に選択されたカラムからの単一値] と [アップ・サンプリングまたはダウン・サンプリングの乗数] の値を入力する必要があります。 たとえば、データセットに、選択したカラムに次の分布を持つ 3 つの異なる値が含まれているとします。
[はい] を選択すると、出力は次のように分布します。
ノート: 正確さ (より低速) パラメーターの設定に応じて、出力で正確なカウントまたはおおよそのカウントを取得できます。 |
||||||||||||||||||||||||
| リ・サンプリング用に選択したカラムからの単一の値 | [リ・サンプルするカラム] で選択したカラムに表示される文字列または数値を指定します。選択したカラムに値が存在しない場合、オペレーターの実行時にエラーが表示されます。 このパラメーターは、[選択したカラムのすべての値のバランス] が [いいえ] に設定されている場合に必要です。 |
||||||||||||||||||||||||
| アップ・サンプリングまたはダウン・サンプリングの乗算器 | 選択したカラムと値をリ・サンプリングするために使用される乗算係数を表す正の 10 進数を指定します。 このパラメーターは、[選択したカラムのすべての値のバランス] が [いいえ] に設定されている場合に必要です。 |
||||||||||||||||||||||||
| 置換を含むサンプル | サンプルが置換の有無を指定します。次の設定が推奨されます。
|
||||||||||||||||||||||||
| 正確さ (低速) | 正確なリ・サンプリングが必要かどうかを指定します。 小規模なデータセットの場合は、オプション [正確さ (低速)] = [はい] を使用することを強くお勧めします。これは、不正確なリ・サンプリングでは、値の出力分布が予想される分布から異なる可能性があるためです。 正確な計算にはデータの追加パスが必要となり、オペレーターの実行が遅くなります。 |
||||||||||||||||||||||||
| ランダム シードを使用 | ランダム シードを使用するかどうかを指定します。 [はい] を選択すると、指定されたランダム シードが使用され、再現可能な結果が得られます。システム生成のシード値を使用するには、[いいえ] を選択します。 | ||||||||||||||||||||||||
| ランダム シード | 擬似ランダム生成に使用するシード。これは、[ランダム シードを使用] が [はい] の場合に使用される整数値です。 | ||||||||||||||||||||||||
| 出力スキーマ | 出力テーブルまたはビューのスキーマを指定します。 | ||||||||||||||||||||||||
| 出力テーブル | 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。 | ||||||||||||||||||||||||
| 結果の保存 | [はい] に設定すると、オペレーターは結果を保存します。 [いいえ] に設定すると、オペレーターは結果を保存しません。 |
出力
- パラメーター サマリー情報: 入力パラメーターとその現在の設定に関する情報が表示されます。
-
出力: リ・サンプリングされたデータのデータセットの出力を表示するテーブル。
-
分布サマリー: クラス、値、分布タイプなどの出力値分布に関する情報が表示されます。
例
次の例は、リ・サンプリングオペレーターを示しています。
- 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
- 複数行 (14 行)。
-
リ・サンプルするカラム: プレー
-
選択したカラムのすべての値のバランスを取る: いいえ
-
選択したカラムからのリ・サンプリング用の単一値: はい
-
アップ・サンプリングまたはダウン・サンプリングの乗数: 2.2
-
置換付きサンプル: はい
-
正確さ (低速): はい
-
ランダム シードを使用: いいえ
-
結果を保存: はい