ヒストグラム

データセットの選択されたフィールドの値を分析し、数値データの度数分布のグラフ表現を生成します。

縦ヒストグラム

情報一覧

パラメーター

説明
カテゴリー エクスプローラ
データ ソース タイプ DB、HD
出力を他のオペレーターに送信 いいえ
データ処理ツール Pig

アルゴリズム

ヒストグラム分析では、特定のカラムのデータ頻度を計算します。

指定されたカラムごとに、ユーザーは生成するビンの数またはビンの幅を入力します。ビンは、最小値と最大値の間、または幅によって均等に分割された間隔です。

たとえば、特定のカラムの最小値は 0、最大値は 100 です。ユーザーが 5 つのビンを指定した場合、各ビンは 20 単位をカバーします。 10 個のビンが指定された場合、各ビンは 10 ユニットをカバーします。

各ビンの境界は、(最小値最大値) として定義されます。

ノート: ユーザーが最小値を定義すると、この値がビンに含まれるか表示されます。最初のビンは定義された最小値を超える最低値から始まり、最後のビンには定義された最大値が含まれます。

入力

前のオペレーターからのデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
ビン [ビン構成] を選択して、分析に使用できる入力データセットからカラムを選択します。

ビン構成ダイアログ」を参照してください。

出力

ビジュアル出力

[カウント][累積カウント][パーセンテージ]、および [データ] の 4 つのセクションが表示されます。

カウント
定義されたグループ (ビン) に従って、一度に 1 カラムのヒストグラムを表示します。ユーザーは、[名前] ドロップダウン リストからカラムを選択できます。

累積数
追加の各ビンに含まれる行数のグラフを表示します。

パーセンテージ
各ビンが入力カラムの何パーセントを表すかを示すグラフを表示します。

データ

各ヒストグラムに関する情報を、次の数値測定とともに要約します。

  • ビン名
  • ビン番号
  • ビンの開始点
  • ビンの終点
  • カウント
  • パーセンテージ
  • 累計数
  • 累計 %

ノート: このオペレーターで使用できる視覚化の詳細については、「ビジュアル結果の精査」を参照してください。
データ出力
なし。これはターミナル オペレーターです。