サマリー統計

サマリー統計オペレーターは、データセットをロードし、データセット全体または別のカラム セットごとにグループ化して、選択した各カラムの基本統計を計算します。

サマリー統計

情報一覧

ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。

パラメーター

説明
カテゴリー エクスプローラ
データ ソース タイプ TIBCO® Data Virtualization
出力を他のオペレーターに送信 はい
データ処理ツール TIBCO® DV, Apache Spark 3.2 以降

アルゴリズム

サマリー統計オペレーターは入力データセットを受け取り、基本的な統計計算を実行します。

このオペレーターは、選択したカラムごとに カウントDISTINCTMinMaxMean正の値の数負の値の数ゼロの数空の値の数Null 値の数下位四分位上位四分位中央値標準偏差変動係数、および n (n は入力で指定されます) の最も一般的な値とそれらのカウントを計算します。

グループ・バイ カラムが選択されている場合、これらの統計は各 グループ・バイ カラムの一意の値ごとに計算され、対応する Group_By_<col> カラムは出力データセットに追加されます。

入力

入力は単一の表形式のデータセットです。

欠落値または Null 値

この操作を実行するとき、または個別の値の数を計算するときに、欠損値または Null 値をスキップします。

構成

次の表に、サマリー統計オペレーターの構成の詳細を示します。

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
カラム サマリー統計を表示するカラムを指定します。 [カラムの選択] をクリックして、分析に使用できる入力データセットからカラムを選択します。選択したカラムは、[グループ・バイ] パラメータ ボックスでは使用できません。
グループ・バイ 入力データセット内のカラムを指定して、グループ・バイされた結果を決定します。 [カラムの選択] をクリックして、分析に使用できる入力データセットからカラムを選択します。
個別値の数を計算する (遅い) 選択したカラムの個別の値の数を計算するかどうかを指定します。

デフォルト: [はい]

ノート: 個別の値を計算すると、処理時間が大幅に長くなる可能性があります。
表示する最も一般的な値の数 各列に出力する最も一般的な値の最大数と、出力に対応するカウントを指定します。
出力スキーマ 出力テーブルまたはビューのスキーマを指定します。
出力テーブル 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。
結果の保存 [はい] に設定すると、オペレーターは結果を保存します。 [いいえ] に設定すると、オペレーターは結果を保存しません。

出力

ビジュアル出力
  • 出力: 選択したフィールドの分析結果を表示するテーブル。行とカラムの最大表示数によって制限されます。

    テーブルのデフォルトの内容は次のとおりです。

    • グループ・バイカラム名
    • カラム名
    • データ タイプ
    • カウント
    • DISTINCT 値
    • 最小値
    • 最大値
    • 平均値
    • 正の値のカウント
    • 負の値のカウント
    • ゼロ値カウント
    • Null 値の数
    • 空の値の数
    • 下位四分位
    • 上位四分位
    • 中央値 (おおよそ) - 数値カラムのおおよその中央値。
    • 標準偏差
    • 変動係数
    • 最も一般的な値 - カラムの最も一般的な値。
    • 最も一般的な数 - カラムの最も一般的な数。

  • パラメーター サマリー情報: 入力パラメーターに関する情報を表示します。入力パラメーターとその現在の設定のリスト。
後続のオペレーターへの出力

選択したカラムごとに 1 行と、グループ・バイ 列 (選択した場合) の値の組み合わせを含む表形式のデータセット。列は、各入力列に対して計算された統計的尺度を表します。

次の例は、サマリー統計オペレーターを示しています。

サマリー統計ワークフロー

データ

golf: このデータセットには次の情報が含まれています。

  • 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
  • 複数行 (14 行)。

パラメーター設定
golf データセットのパラメーター設定は次のとおりです。
  • カラム: 天気概況、気温、湿度、プレー

  • グループ・バイ: 風

  • 個別値の数を計算する (遅い): はい

  • 表示する最も一般的な値の数: 3

  • 結果を保存: はい

結果
次の図は、golf データセットのパラメーター設定の結果を示しています。
出力
サマリー統計出力
パラメーターのサマリー情報
サマリー統計オペレーター - [パラメーターサマリー情報] タブ