サンプル セレクター

このオペレーターは、先行する ランダム サンプリング オペレーター に接続し、後続のオペレーターで使用するためにそのオペレーターから生成されたサンプル データセット (トレーニングまたはテスト) の 1 つを指定できます。

情報一覧

ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。

パラメーター

説明
カテゴリー サンプル
データ ソース タイプ TIBCO® Data Virtualization
出力を他のオペレーターに送信 はい
データ処理ツール TIBCO® DV, Apache Spark 3.2 以降

アルゴリズム

このオペレーターは、先行する ランダム サンプリング オペレーター に接続し、後続のオペレーターで使用するためにそのオペレーターから生成されたトレーニング データセットまたはテスト データセットを選択できます。

入力

入力は、ランダム サンプリング オペレーターなどのサンプル生成オペレーターです。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
選択したサンプル 前述のランダム サンプリングオペレーターからサンプルをデータベース テーブルまたはビューとして選択します。

出力

ビジュアル出力
選択したデータ サンプル テーブルまたはビューのデータ行が表示されます。
後続のオペレーターへの出力
ダウンストリーム オペレーターによって使用されるテーブル出力。このオペレーターを実行すると、カラム構造 (スキーマ) が生成されます。
ノート: ダウンストリーム オペレーターを実行する前に、このオペレーターを実行します。

次の例は、サンプル セレクター オペレーターを使用して、ランダム サンプリング オペレーターによって生成されたトレーニング データセットとテスト データセットを選択する方法を示しています。

サンプル セレクター オペレーター ワークフロー
データ
golf: このデータセットには次の情報が含まれています。
  • 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
  • 複数行 (14 行)。
パラメーター設定
golf データセットのパラメーター設定は次のとおりです。
  • 選択したサンプル: Sample 1 (80%)

出力
次の図は、golf データセットのパラメーター設定の出力を示しています。
サンプル セレクターオペレーター [出力] タブ