サマリー統計 (HD)

前のオペレーターによって渡されたデータセットの選択されたカラムに関する有用なサマリー情報を提供します。

サマリー統計

情報一覧

パラメーター

説明
カテゴリー エクスプローラ
データ ソース タイプ HD
出力を他のオペレーターに送信 いいえ
データ処理ツール Pig
ノート: サマリー統計 (HD) オペレーターは、Hadoop データのみを対象としています。データベース データの場合は、サマリー統計 (DB) オペレーターを使用します。

入力

前のオペレーターからのデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
カラム サマリー統計を表示する数値カラムを選択します。 [カラムの選択] をクリックしてダイアログを開き、分析に使用できる入力データセットからカラムを選択します。
グループ・バイ 結果をグループ化する入力データセットの列。
個別値の数を計算する (遅い)

選択したカラムの個別の値の数を計算するかどうかを決定します - [はい] (デフォルト) または [いいえ]

ノート: 個別の値を計算すると、処理時間が大幅に長くなる可能性があります。

表示する最も一般的な値の数 各列に出力する最も一般的な値の最大数を決定します。

[個別値の数を計算する] が有効な場合にのみ有効になります。

結果を保存しますか? 結果を保存するかどうかを指定します。
  • true - 結果が保存されます。
  • false - データセットは保存せずに次のオペレーターに渡されます。
結果ロケーション オペレーターの結果が保存される HDFS ディレクトリ。これはメイン ディレクトリであり、そのサブディレクトリは [結果名] で指定されます。 [ファイルの選択] をクリックして Hadoop ファイル エクスプローラー ダイアログ を開き、ストレージの場所を参照します。テキストを直接編集しないでください。
結果名 結果を保存するファイルの名前。
上書き そのパスとファイル名の既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力

選択したフィールドの分析結果を表示するテーブル。次のリストは、デフォルトのテーブルの内容を示しています。

  • 名前
  • データ タイプ
  • カウント
  • 一意の値の数
  • Null 値の数
  • 空の値の数
  • ゼロ値カウント
  • 最小値
  • 25% (およそ) - 数値カラムのおよそ 25% の値。
  • 中央値 (おおよそ) - 数値カラムのおおよその中央値。
  • 75% (およそ) - 数値カラムのおよそ 75% の値。
  • 最大値
  • 標準偏差
  • 平均
  • 正の値のカウント
  • 負の値のカウント
  • 最も一般的な (値) - カラムの最も一般的な値。
  • 最も一般的な (パーセンテージ) - 最も一般的な値の合計に対するパーセンテージ。
  • 2 番目に一般的な (値) - 2 番目に一般的な値。
  • 2 番目に多い (値) - 2 番目に多い値が全体に占める割合。

データ出力
分析結果のデータセット (つまり、ビジュアル出力に表示されるのと同じデータ)。