サマリー統計 (HD)
前のオペレーターによって渡されたデータセットの選択されたカラムに関する有用なサマリー情報を提供します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | エクスプローラ |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | いいえ |
| データ処理ツール | Pig |
ノート: サマリー統計 (HD) オペレーターは、Hadoop データのみを対象としています。データベース データの場合は、サマリー統計 (DB) オペレーターを使用します。
入力
前のオペレーターからのデータセット。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| カラム | サマリー統計を表示する数値カラムを選択します。 [カラムの選択] をクリックしてダイアログを開き、分析に使用できる入力データセットからカラムを選択します。 |
| グループ・バイ | 結果をグループ化する入力データセットの列。 |
| 個別値の数を計算する (遅い) |
選択したカラムの個別の値の数を計算するかどうかを決定します - [はい] (デフォルト) または [いいえ]。 ノート: 個別の値を計算すると、処理時間が大幅に長くなる可能性があります。
|
| 表示する最も一般的な値の数 | 各列に出力する最も一般的な値の最大数を決定します。 [個別値の数を計算する] が有効な場合にのみ有効になります。 |
| 結果を保存しますか? | 結果を保存するかどうかを指定します。
|
| 結果ロケーション | オペレーターの結果が保存される HDFS ディレクトリ。これはメイン ディレクトリであり、そのサブディレクトリは [結果名] で指定されます。 [ファイルの選択] をクリックして Hadoop ファイル エクスプローラー ダイアログ を開き、ストレージの場所を参照します。テキストを直接編集しないでください。 |
| 結果名 | 結果を保存するファイルの名前。 |
| 上書き | そのパスとファイル名の既存のデータを削除するかどうかを指定します。
|
| 高度な Spark 設定の自動最適化 |
|
出力
ビジュアル出力
選択したフィールドの分析結果を表示するテーブル。次のリストは、デフォルトのテーブルの内容を示しています。
- 名前
- データ タイプ
- カウント
- 一意の値の数
- Null 値の数
- 空の値の数
- ゼロ値カウント
- 最小値
- 25% (およそ) - 数値カラムのおよそ 25% の値。
- 中央値 (おおよそ) - 数値カラムのおおよその中央値。
- 75% (およそ) - 数値カラムのおよそ 75% の値。
- 最大値
- 標準偏差
- 平均
- 正の値のカウント
- 負の値のカウント
- 最も一般的な (値) - カラムの最も一般的な値。
- 最も一般的な (パーセンテージ) - 最も一般的な値の合計に対するパーセンテージ。
- 2 番目に一般的な (値) - 2 番目に一般的な値。
- 2 番目に多い (値) - 2 番目に多い値が全体に占める割合。
データ出力
分析結果のデータセット (つまり、ビジュアル出力に表示されるのと同じデータ)。