サマリー統計 (DB)

前のオペレーターによって渡されたデータセットの選択されたカラムに関する有用なサマリー情報を提供します。

サマリー統計

情報一覧

パラメーター

説明
カテゴリー エクスプローラ
データ ソース タイプ DB
出力を他のオペレーターに送信 いいえ
データ処理ツール なし
ノート: サマリー統計 (DB) オペレーターはデータベース データのみを対象とします。Hadoop データの場合は、サマリー統計 (HD) オペレーターを使用します。

入力

前のオペレーターからのデータセット。

制限事項

サマリー統計オペレーターは、汎用 JDBC データセットでは機能しません。サマリー統計 (DB) を参照してください。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
カラム サマリー統計を表示する数値カラムを選択します。
  • [カラムの選択] をクリックして、入力データセットから分析に使用できるカラムを選択するためのダイアログを開きます。
  • カラム名の前にあるボックスを選択またはクリアして、カラムを選択または選択解除します。
  • すべてのカラムを選択するには、[すべて] をクリックします。
  • [OK] をクリックして、選択の変更を確定します。
  • すべての選択の変更をキャンセルするには、[キャンセル] をクリックします。
グループ・バイ [カラムの選択] をクリックすると、結果をグループ化するために入力データセットから使用可能なカラムを選択するためのダイアログが開きます。
個別値の数を計算する (遅い)

選択したカラムの個別の値の数を計算するかどうかを決定します。

個別の値を計算すると、処理時間が大幅に長くなる可能性があります。

デフォルト値: はい

表示する最も一般的な値の数

各列に出力する最も一般的な値の最大数を決定します。

[個別値の数を計算する] が有効な場合にのみ有効になります。

出力スキーマ 出力テーブルまたはビューのスキーマ。
出力テーブル 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。
ストレージパラメーター オペレーター出力の詳細なデータベース設定。 [テーブル] 出力でのみ使用できます。

詳細については、「ストレージ パラメーター ダイアログ」を参照してください。

存在する場合は削除 既存のテーブルを上書きするかどうかを指定します。
  • はい - その名前のテーブルが存在する場合、結果を保存する前にテーブルが削除されます。
  • いいえ - その名前のテーブルが存在する場合、結果ウィンドウにエラー メッセージが表示されます。

出力

ビジュアル出力

選択したフィールドの分析結果を表示するテーブル。次のリストは、デフォルトのテーブルの内容を示しています。

  • 名前
  • データ タイプ
  • カウント
  • 一意の値の数
  • Null 値の数
  • 空の値の数
  • ゼロ値カウント
  • 最小値
  • 25% (およそ) - 数値カラムのおよそ 25% の値。
  • 中央値 (おおよそ) - 数値カラムのおおよその中央値。
  • 75% (およそ) - 数値カラムのおよそ 75% の値。
  • 最大値
  • 標準偏差
  • 平均
  • 正の値のカウント
  • 負の値のカウント
  • 最も一般的な (値) - カラムの最も一般的な値。
  • 最も一般的な (パーセンテージ) - 最も一般的な値の合計に対するパーセンテージ。
  • 2 番目に一般的な (値) - 2 番目に一般的な値。
  • 2 番目に多い (値) - 2 番目に多い値が全体に占める割合。

データ出力
分析結果のデータセット (つまり、ビジュアル出力に表示されるのと同じデータ)。