サンプル セレクター
このオペレーターは、先行する ランダム サンプリング オペレーター に接続し、後続のオペレーターで使用するためにそのオペレーターから生成されたサンプル データセット (トレーニングまたはテスト) の 1 つを指定できます。
情報一覧
ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。
|
パラメーター |
説明 |
|---|---|
| カテゴリー | サンプル |
| データ ソース タイプ | TIBCO® Data Virtualization |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | TIBCO® DV, Apache Spark 3.2 以降 |
アルゴリズム
このオペレーターは、先行する ランダム サンプリング オペレーター に接続し、後続のオペレーターで使用するためにそのオペレーターから生成されたトレーニング データセットまたはテスト データセットを選択できます。
入力
入力は、ランダム サンプリング オペレーターなどのサンプル生成オペレーターです。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 選択したサンプル | 前述のランダム サンプリングオペレーターからサンプルをデータベース テーブルまたはビューとして選択します。 |
出力
ビジュアル出力
選択したデータ サンプル テーブルまたはビューのデータ行が表示されます。
後続のオペレーターへの出力
ダウンストリーム オペレーターによって使用されるテーブル出力。このオペレーターを実行すると、カラム構造 (スキーマ) が生成されます。
ノート: ダウンストリーム オペレーターを実行する前に、このオペレーターを実行します。
例
次の例は、サンプル セレクター オペレーターを使用して、ランダム サンプリング オペレーターによって生成されたトレーニング データセットとテスト データセットを選択する方法を示しています。
データ
golf: このデータセットには次の情報が含まれています。
- 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
- 複数行 (14 行)。
パラメーター設定
golf データセットのパラメーター設定は次のとおりです。
-
選択したサンプル: Sample 1 (80%)
出力
次の図は、golf データセットのパラメーター設定の出力を示しています。