バッチ集計の集計方法

各集計を個別に構成する必要がある集計オペレーターとは対照的に、バッチ集計オペレーターを使用すると、集計方法ごとに多くの数値カラムを選択し、これらすべての集計を一度に計算できます。結果は、グループ・バイ列と各集計のカラムを含む幅広いデータセットになります。

利用可能な集計方法
集計パラメーター名 プレフィックス/サフィックス パフォーマンスへの影響
Count group_size このグループの Null 以外のメンバーの数。  
Minimum min 各グループの最低値。  
Maximum max 各グループの最高値。  
Sum sum 各グループのすべての値の合計。  
Mean mean 各グループの Sum/Count Spark SQL を使用して実行されるオンライン計算
Variance var 母集団の分散:

avg(col*col)-avg(col)*avg(col)

Spark SQL (v 1.5.1) を使用して実行されるオンライン計算
Standard Deviation sd 上記の平方根。 Spark SQL (v 1.5.1) を使用して実行されるオンライン計算
DISTINCT distinct グループ内の個別の値の数。 Spark SQL (v 1.5.1) を使用して計算されます。各グループ内に個別の値が多数ある場合、またはグループが選択されていない場合は遅くなります。
Median1 median グループの中間エレメント。具体的には、バッチ集計の中央値 であるグループ内で n 番目に大きいエレメントとして中央値を計算します。 高い。他の値とは異なり、高パフォーマンスの Spark SQL オプティマイザーを使用して計算することはできません。追加のシャッフル手順が必要です。グループが多数ある場合、メモリ制限に達する可能性があります。