バッチ集計
複数のカラムに対して集計を実行します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | トランスフォーム |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | Spark |
入力
HDFS からの 1 つのデータセット。オペレーターには、集計を計算するための少なくともいくつかの数値列が必要です。任意のタイプのカラムによるグループを含めることができます。たとえば、郡と人口統計情報の入力データセットを使用して、州ごとの郡に関する集計を取得できます。
ダーティ データ: 区切られたデータを解析する場合、バッチ集計オペレーターは解析中にダーティ データ (数値カラムの文字列、整数カラムのダブル、値の数が正しくない行など) を削除します。これらの「ダーティ」行は、Spark が処理できないため、サイレントに削除されます。
Null 値: 集計を計算する前に、オペレーターは、グループ・バイ カラム、または集計用に選択されたカラムのいずれかに Null 値を含む行をフィルターします。次に、オペレーターは、[Null データにより削除された行をファイルに書き込む] パラメーターの値に従って、Null 値を持つこれらの行を処理します。Null データにより削除された行の数は、ビジュアル出力の [サマリー] タブに出力されます。
制限事項
グループ・バイ カラムに多数の異なる値がある場合の中央値: この演算子は、グループ・バイ カラムに多くの異なる値がある場合、中央値を計算できないことがあります。具体的には、グループ・バイ カラムにドライバー メモリに収まる以上の明確な値がある場合、この演算子はメモリ不足例外で失敗する可能性があります。Spark のデフォルト ドライバー メモリは 1024 MB に設定されているため、入力データのグループ・バイ カラムに 100 万以上の異なる値がある場合は、オペレータ設定画面の [Spark の詳細設定] ダイアログを使用してドライバー メモリを増やす必要があるかもしれません。グループ・バイ カラムは文字列として保存されるため、グループ・バイ カラムの各値のサイズを小さくすると、この上限が増える可能性があります。
幅広いデータ: オペレーターは長いデータに対して非常にパフォーマンスが高くなりますが、数千のカラムに対して集計が計算される場合、パフォーマンスが大幅に低下する可能性があります。Spark のエグゼキューター メモリを増やすと、パフォーマンスが向上する可能性があります。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| グループ・バイ | データをグループ・バイするためのカラム。 |
| 最大値を見つける | 各グループのこれらの各カラムの最大値。 |
| 最小値を求める | 各グループのこれらの各カラムの最小値。 |
| 合計を計算する | 各グループのこれらの各カラムの合計。 |
| 平均値の計算 | 各グループのこれらの各カラムの平均値。 |
| 分散の計算 | 各グループのこれらの各カラムの分散。実装とパフォーマンスの詳細については、「バッチ集計の集計方法」を参照してください。 |
| 標準偏差の計算 | 各グループのこれらの各カラムの標準偏差。実装とパフォーマンスの詳細については、「バッチ集計の集計方法」を参照してください。 |
| 個別の数を計算する (遅い) | 各グループのこれらの各カラムの個別の値 (Null 値を除く) の数。実装とパフォーマンスの詳細については、「バッチ集計の集計方法」を参照してください。 |
| 中央値の計算 (遅い) | 各グループのこれらの各カラムの中央値。実装とパフォーマンスの詳細については、「バッチ集計の集計方法」を参照してください。 |
| おおよその中央値を使用する | 近似中央値を使用するかどうかを指定します - [はい] または [いいえ] (デフォルト)。 |
| カラム名の形式 | 集計タイプが出力のカラム名の先頭または末尾のどちらに追加されるかを示します。 デフォルト値: サフィックス。たとえば、一連の年齢の平均を計算するカラムのタイトルは「age_mean」になります。 |
| Null データにより削除された行をファイルに書き込む | Null 値を含む行は分析から削除されます。このパラメーターを使用すると、Null 値を含むデータをファイルに書き込むように指定できます。 ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名の接尾辞は _baddata です。
|
| ストレージ フォーマット | 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。 一般的な形式は、Avro、CSV、TSV、または Parquet です。 |
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプション。
利用可能な Avro 圧縮オプション。
|
| 出力ディレクトリ | 出力ファイルを保存する場所。 |
| 出力名 | 結果を含める名前。 |
| 出力を上書き | そのパスにある既存のデータを削除するかどうかを指定します。
|
| 高度な Spark 設定の自動最適化 |
|
出力
オペレーターは、出力、パラメーター、および サマリーの 3 つのタブを備えたビジュアル出力を返します。
出力 - データ出力のプレビュー (「データ出力」セクションを参照)。
パラメーター - 次の例に示すように、選択されたパラメーターのリスト。
サマリー - Null データのために削除された行数のサマリーと、結果の保存場所に関するメッセージ。
HDFS データを入力として受け付ける TIBCO Data Science - Team Studio オペレーターであれば、どのオペレーターでも受け付けることができる幅広いデータセット。グループ・バイ カラムのそれぞれが出力に含まれます。group_size カラムには、そのグループ内の Null 以外の値の数が表示されます。集計タイプごとに、選択された入力カラムごとに 1 つのカラムがあります。
郡および州にわたる選挙データに関するデータセットを使用し、「サフィックス」オプションと上記の集計を選択したとします。新しいデータセットは次の構造になります。
ご覧のとおり、各集計カラムには、元のカラム名 + アンダースコア + 実行される集計の種類を説明するサフィックスが付けられています。 「prefix」オプションを使用した場合は、集計が最初に行われます。たとえば、「max_pop」です。各集計に使用される正確な略語については、上記の利用可能な集計方法の表を参照してください。カラムは集計によって並べ替えられ、次に入力カラムによって並べ替えられます。したがって、すべての平均カラムがグループ・バイされます。集計はパラメーターと同じ順序でリストされ、Null 値を含む行が削除された後に計算されます。
この例が示すように、グループはアルファベット順にソートされていません。集計を順序付けするには、このオペレーターを並べ替えオペレーターに接続します。