ヒストグラム
データセットの選択されたフィールドの値を分析し、数値データの度数分布のグラフ表現を生成します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | エクスプローラ |
| データ ソース タイプ | DB、HD |
| 出力を他のオペレーターに送信 | いいえ |
| データ処理ツール | Pig |
アルゴリズム
ヒストグラム分析では、特定のカラムのデータ頻度を計算します。
指定されたカラムごとに、ユーザーは生成するビンの数またはビンの幅を入力します。ビンは、最小値と最大値の間、または幅によって均等に分割された間隔です。
たとえば、特定のカラムの最小値は 0、最大値は 100 です。ユーザーが 5 つのビンを指定した場合、各ビンは 20 単位をカバーします。 10 個のビンが指定された場合、各ビンは 10 ユニットをカバーします。
各ビンの境界は、(最小値、最大値) として定義されます。
入力
前のオペレーターからのデータセット。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| ビン | [ビン構成] を選択して、分析に使用できる入力データセットからカラムを選択します。 「ビン構成ダイアログ」を参照してください。 |
出力
[カウント]、[累積カウント]、[パーセンテージ]、および [データ] の 4 つのセクションが表示されます。



各ヒストグラムに関する情報を、次の数値測定とともに要約します。
- ビン名
- ビン番号
- ビンの開始点
- ビンの終点
- カウント
- パーセンテージ
- 累計数
- 累計 %