バッチ集計
このオペレーターは、Spark MLLib のバッチ集計アルゴリズムを使用して、複数のカラムに対して集計を実行します。
情報一覧
ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。
|
パラメーター |
説明 |
|---|---|
| カテゴリー | トランスフォーム |
| データ ソース タイプ | TIBCO® Data Virtualization |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | TIBCO® DV, Apache Spark 3.2 以降 |
アルゴリズム
バッチ集計オペレーターは入力データセットを受け取り、複数のカラムに対して複数の集計を実行します。出力データセットの行は、[グループ・バイ] カラムによって決定される各グループの集計計算によって表されます。
入力
入力は単一の表形式のデータセットです。
欠落値または Null 値
集計の実行中または個別の値の数の計算中に、欠落値または Null 値をスキップします。
構成
次の表に、バッチ集計オペレーターの構成の詳細を示します。
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| グループ・バイ | 入力データセット内のカラムを指定して、グループ・バイされた結果を決定します。 [カラムの選択] をクリックすると、分析に使用できる入力データセットからカラムを選択するためのダイアログが開きます。 |
| 最大値を見つける | 各グループの各カラムの最大値。 [カラムの選択] をクリックすると、分析に使用できる入力データセットからカラムを選択するためのダイアログが開きます。 |
| 最小値を求める | 各グループの各カラムの最小値。 [カラムの選択] をクリックすると、分析に使用できる入力データセットからカラムを選択するためのダイアログが開きます。 |
| 合計を計算する | 各グループの各カラムの合計。 |
| 平均値の計算 | 各グループの各カラムの平均値。 |
| 分散の計算 | 各グループの各カラムの分散。実装とパフォーマンスの詳細については、「バッチ集計の集計方法」を参照してください。 |
| 標準偏差の計算 | 各グループの各カラムの標準偏差。実装とパフォーマンスの詳細については、「バッチ集計の集計方法」を参照してください。 |
| DISTINCT の数を計算 (遅い) | 各グループの各カラムの DISTINCT の値 (Null 値を除く) の数。実装とパフォーマンスの詳細については、「バッチ集計の集計方法」を参照してください。 |
| 中央値の計算 (遅い) | 各グループの各カラムの中央値。実装とパフォーマンスの詳細については、「バッチ集計の集計方法」を参照してください。 |
| カラム名の形式 | 出力のカラム名の先頭または末尾に集計タイプを追加するかどうかを指定します。使用可能なオプションは サフィックス (接尾辞) と プレフィックス (接頭辞) です。 デフォルト: サフィックス |
| 出力スキーマ | 出力テーブルまたはビューのスキーマを指定します。 |
| 出力テーブル | 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。 |
| 結果の保存 | [はい] に設定すると、オペレーターは結果を保存します。 [いいえ] に設定すると、オペレーターは結果を保存しません。 |
出力
ビジュアル出力
- 出力: 入力データセットの指定されたカラムの指定された集計を表示します。
- パラメーターサマリー情報: 入力パラメーターに関する情報を表示します。入力パラメーターとその現在の設定のリスト。
- カラム データ サイズ: データセット全体のサイズを表示します。
後続のオペレーターへの出力
オペレーターとともに使用できるモデル オブジェクト。
例
次の例は、バッチ集計オペレーターを示しています。
データ
golf: このデータセットには次の情報が含まれています。
- 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
- 複数行 (14 行)。
パラメーター設定
golf データセットのパラメーター設定は次のとおりです。
-
グループ・バイ: 天気概況
-
最大値の計算: 湿度
-
最小値の計算: 温度
-
合計を計算: 温度
-
平均値の計算: 温度、湿度
-
分散の計算: 湿度
-
標準偏差の計算: 湿度
-
DISTINCT の数を計算 (遅い): 温度、風、プレー
-
カラム名の形式: 接尾辞
-
結果を保存: はい
結果
これらの図は、golf データセットのパラメーター設定の結果を示しています。
出力
上記の出力では、グループはアルファベット順にソートされていません。集計を順序付けするには、このオペレーターを並べ替えオペレーターに接続します。
パラメーターのサマリー情報
カラムのデータサイズ