サマリー統計
サマリー統計オペレーターは、データセットをロードし、データセット全体または別のカラム セットごとにグループ化して、選択した各カラムの基本統計を計算します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | エクスプローラ |
| データ ソース タイプ | TIBCO® Data Virtualization |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | TIBCO® DV, Apache Spark 3.2 以降 |
アルゴリズム
サマリー統計オペレーターは入力データセットを受け取り、基本的な統計計算を実行します。
このオペレーターは、選択したカラムごとに カウント、DISTINCT、Min、Max、Mean、正の値の数、負の値の数、ゼロの数、空の値の数、 Null 値の数、下位四分位、上位四分位、中央値、標準偏差 、変動係数、および n (n は入力で指定されます) の最も一般的な値とそれらのカウントを計算します。
グループ・バイ カラムが選択されている場合、これらの統計は各 グループ・バイ カラムの一意の値ごとに計算され、対応する Group_By_<col> カラムは出力データセットに追加されます。
入力
入力は単一の表形式のデータセットです。
この操作を実行するとき、または個別の値の数を計算するときに、欠損値または Null 値をスキップします。
構成
次の表に、サマリー統計オペレーターの構成の詳細を示します。
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| カラム | サマリー統計を表示するカラムを指定します。 [カラムの選択] をクリックして、分析に使用できる入力データセットからカラムを選択します。選択したカラムは、[グループ・バイ] パラメータ ボックスでは使用できません。 |
| グループ・バイ | 入力データセット内のカラムを指定して、グループ・バイされた結果を決定します。 [カラムの選択] をクリックして、分析に使用できる入力データセットからカラムを選択します。 |
| 個別値の数を計算する (遅い) | 選択したカラムの個別の値の数を計算するかどうかを指定します。 デフォルト: [はい] ノート: 個別の値を計算すると、処理時間が大幅に長くなる可能性があります。 |
| 表示する最も一般的な値の数 | 各列に出力する最も一般的な値の最大数と、出力に対応するカウントを指定します。 |
| 出力スキーマ | 出力テーブルまたはビューのスキーマを指定します。 |
| 出力テーブル | 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。 |
| 結果の保存 | [はい] に設定すると、オペレーターは結果を保存します。 [いいえ] に設定すると、オペレーターは結果を保存しません。 |
出力
-
出力: 選択したフィールドの分析結果を表示するテーブル。行とカラムの最大表示数によって制限されます。
テーブルのデフォルトの内容は次のとおりです。
- グループ・バイカラム名
- カラム名
- データ タイプ
- カウント
- DISTINCT 値
- 最小値
- 最大値
- 平均値
- 正の値のカウント
- 負の値のカウント
- ゼロ値カウント
- Null 値の数
- 空の値の数
- 下位四分位
- 上位四分位
- 中央値 (おおよそ) - 数値カラムのおおよその中央値。
- 標準偏差
- 変動係数
- 最も一般的な値 - カラムの最も一般的な値。
- 最も一般的な数 - カラムの最も一般的な数。
- パラメーター サマリー情報: 入力パラメーターに関する情報を表示します。入力パラメーターとその現在の設定のリスト。
選択したカラムごとに 1 行と、グループ・バイ 列 (選択した場合) の値の組み合わせを含む表形式のデータセット。列は、各入力列に対して計算された統計的尺度を表します。
例
次の例は、サマリー統計オペレーターを示しています。
golf: このデータセットには次の情報が含まれています。
- 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
- 複数行 (14 行)。
-
カラム: 天気概況、気温、湿度、プレー
-
グループ・バイ: 風
-
個別値の数を計算する (遅い): はい
-
表示する最も一般的な値の数: 3
-
結果を保存: はい