バッチ集計

複数のカラムに対して集計を実行します。

情報一覧

パラメーター

説明
カテゴリー トランスフォーム
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Spark

入力

HDFS からの 1 つのデータセット。オペレーターには、集計を計算するための少なくともいくつかの数値列が必要です。任意のタイプのカラムによるグループを含めることができます。たとえば、郡と人口統計情報の入力データセットを使用して、州ごとの郡に関する集計を取得できます。

値が不正または欠落しています

ダーティ データ: 区切られたデータを解析する場合、バッチ集計オペレーターは解析中にダーティ データ (数値カラムの文字列、整数カラムのダブル、値の数が正しくない行など) を削除します。これらの「ダーティ」行は、Spark が処理できないため、サイレントに削除されます。

Null 値: 集計を計算する前に、オペレーターは、グループ・バイ カラム、または集計用に選択されたカラムのいずれかに Null 値を含む行をフィルターします。次に、オペレーターは、[Null データにより削除された行をファイルに書き込む] パラメーターの値に従って、Null 値を持つこれらの行を処理します。Null データにより削除された行の数は、ビジュアル出力の [サマリー] タブに出力されます。

制限事項

グループ・バイ カラムに多数の異なる値がある場合の中央値: この演算子は、グループ・バイ カラムに多くの異なる値がある場合、中央値を計算できないことがあります。具体的には、グループ・バイ カラムにドライバー メモリに収まる以上の明確な値がある場合、この演算子はメモリ不足例外で失敗する可能性があります。Spark のデフォルト ドライバー メモリは 1024 MB に設定されているため、入力データのグループ・バイ カラムに 100 万以上の異なる値がある場合は、オペレータ設定画面の [Spark の詳細設定] ダイアログを使用してドライバー メモリを増やす必要があるかもしれません。グループ・バイ カラムは文字列として保存されるため、グループ・バイ カラムの各値のサイズを小さくすると、この上限が増える可能性があります。

幅広いデータ: オペレーターは長いデータに対して非常にパフォーマンスが高くなりますが、数千のカラムに対して集計が計算される場合、パフォーマンスが大幅に低下する可能性があります。Spark のエグゼキューター メモリを増やすと、パフォーマンスが向上する可能性があります。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
グループ・バイ データをグループ・バイするためのカラム。
最大値を見つける 各グループのこれらの各カラムの最大値。
最小値を求める 各グループのこれらの各カラムの最小値。
合計を計算する 各グループのこれらの各カラムの合計。
平均値の計算 各グループのこれらの各カラムの平均値。
分散の計算 各グループのこれらの各カラムの分散。実装とパフォーマンスの詳細については、「バッチ集計の集計方法」を参照してください。
標準偏差の計算 各グループのこれらの各カラムの標準偏差。実装とパフォーマンスの詳細については、「バッチ集計の集計方法」を参照してください。
個別の数を計算する (遅い) 各グループのこれらの各カラムの個別の値 (Null 値を除く) の数。実装とパフォーマンスの詳細については、「バッチ集計の集計方法」を参照してください。
中央値の計算 (遅い) 各グループのこれらの各カラムの中央値。実装とパフォーマンスの詳細については、「バッチ集計の集計方法」を参照してください。
おおよその中央値を使用する 近似中央値を使用するかどうかを指定します - [はい] または [いいえ] (デフォルト)。
カラム名の形式 集計タイプが出力のカラム名の先頭または末尾のどちらに追加されるかを示します。

デフォルト値: サフィックス。たとえば、一連の年齢の平均を計算するカラムのタイトルは「age_mean」になります。

Null データにより削除された行をファイルに書き込む Null 値を含む行は分析から削除されます。このパラメーターを使用すると、Null 値を含むデータをファイルに書き込むように指定できます。

ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名の接尾辞は _baddata です。

  • Null 行の書き込みまたはカウントを行わない (最速) - Null 値データを削除しますが、カウントして結果 UI に表示しません。

  • Null 行をファイルに書き込まない - Null 値データを削除して結果 UI に表示しますが、外部ファイルには書き込みません。

  • 最大 1000 行の Null 行をファイルに書き込む - Null 値データを削除し、そのデータの最初の 1000 行を外部ファイルに書き込みます。

  • すべての Null 行をファイルに書き込む - Null 値データを削除し、削除されたすべての行を外部ファイルに書き込みます。

ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力

オペレーターは、出力パラメーター、および サマリーの 3 つのタブを備えたビジュアル出力を返します。

出力 - データ出力のプレビュー (「データ出力」セクションを参照)。

パラメーター - 次の例に示すように、選択されたパラメーターのリスト。

サマリー - Null データのために削除された行数のサマリーと、結果の保存場所に関するメッセージ。

データ出力

HDFS データを入力として受け付ける TIBCO Data Science - Team Studio オペレーターであれば、どのオペレーターでも受け付けることができる幅広いデータセット。グループ・バイ カラムのそれぞれが出力に含まれます。group_size カラムには、そのグループ内の Null 以外の値の数が表示されます。集計タイプごとに、選択された入力カラムごとに 1 つのカラムがあります。

郡および州にわたる選挙データに関するデータセットを使用し、「サフィックス」オプションと上記の集計を選択したとします。新しいデータセットは次の構造になります。

ご覧のとおり、各集計カラムには、元のカラム名 + アンダースコア + 実行される集計の種類を説明するサフィックスが付けられています。 「prefix」オプションを使用した場合は、集計が最初に行われます。たとえば、「max_pop」です。各集計に使用される正確な略語については、上記の利用可能な集計方法の表を参照してください。カラムは集計によって並べ替えられ、次に入力カラムによって並べ替えられます。したがって、すべての平均カラムがグループ・バイされます。集計はパラメーターと同じ順序でリストされ、Null 値を含む行が削除された後に計算されます。

この例が示すように、グループはアルファベット順にソートされていません。集計を順序付けするには、このオペレーターを並べ替えオペレーターに接続します。

データ出力
指定された集計値を含むデータセット。