バッチ集計の集計方法
各集計を個別に構成する必要がある集計オペレーターとは対照的に、バッチ集計オペレーターを使用すると、集計方法ごとに多くの数値カラムを選択し、これらすべての集計を一度に計算できます。結果は、グループ・バイ列と各集計のカラムを含む幅広いデータセットになります。
| 集計パラメーター名 | プレフィックス/サフィックス | 式 | パフォーマンスへの影響 |
|---|---|---|---|
| Count | group_size | このグループの Null 以外のメンバーの数。 | |
| Minimum | min | 各グループの最低値。 | |
| Maximum | max | 各グループの最高値。 | |
| Sum | sum | 各グループのすべての値の合計。 | |
| Mean | mean | 各グループの Sum/Count。 |
Spark SQL を使用して実行されるオンライン計算 |
| Variance | var | 母集団の分散:
|
Spark SQL (v 1.5.1) を使用して実行されるオンライン計算 |
| Standard Deviation | sd | 上記の平方根。 | Spark SQL (v 1.5.1) を使用して実行されるオンライン計算 |
| DISTINCT | distinct | グループ内の個別の値の数。 | Spark SQL (v 1.5.1) を使用して計算されます。各グループ内に個別の値が多数ある場合、またはグループが選択されていない場合は遅くなります。 |
| Median1 | median | グループの中間エレメント。具体的には、 であるグループ内で n 番目に大きいエレメントとして中央値を計算します。 |
高い。他の値とは異なり、高パフォーマンスの Spark SQL オプティマイザーを使用して計算することはできません。追加のシャッフル手順が必要です。グループが多数ある場合、メモリ制限に達する可能性があります。 |
であるグループ内で n 番目に大きいエレメントとして中央値を計算します。