カイ 2 乗、適合度

分布の適合度についてピアソンのカイ 2 乗検定を計算します。

情報一覧

パラメーター

説明
カテゴリー 予測
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Spark

カイ 2 乗オペレーターの詳細については、「ピアソンのカイ 2 乗演算」を参照してください。

入力

このオペレーターには 2 つの入力が必要です。1 つは観測されたイベントとその頻度を含むデータセット、もう 1 つはイベントの予想頻度を表すデータセットです。どちらのデータセットにも、イベント名を表すカテゴリー カラムと、イベントの頻度を示す数値カラムが必要です。頻度は絶対頻度である必要があります (相対頻度 - 比率を使用すると、統計が不正確になります)。

次の入力 (事前に集計されているかどうかにかかわらず) は有効とみなされます (つまり、一意のカテゴリの頻度は、実行時に集計される複数の行に分割できます)。

コンバージョン カウント
解約済み 500
保持 250
非アクティブ 250
コンバージョン カウント
解約済み 499
解約済み 1
非アクティブ 250
残留 250

2 つの入力データセット (期待頻度と観測頻度) は、まったく同じデータ形式である必要はありませんが、カイ 2 乗統計量は、観測頻度と期待頻度のペアごとの比較であるため、同じ異なるイベントに対応する必要があります。各イベントの結果。

ノート: [観測頻度カラム] カラムの絶対度数の合計が[期待頻度カラム] の絶対頻度数の合計と等しくない場合、MLLib のカイ 2 乗は、カイ 2 乗統計量を計算する前に、observed_freq_sum/Expected_freq_sum の係数を用いて [期待頻度数カラム] の頻度数を自動的に再スケーリングします。
値が不正または欠落しています
欠落値または Null 値は、2 つの入力データセットのそれぞれの偶数名カラムとイベント頻度カラムの両方から削除する必要があります。このステップで行が削除された場合、それらはビジュアル出力の [サマリー] タブにレポートされます。 [Null データにより削除された行をファイルに書き込む] パラメーターの選択した値に応じて、いずれかのデータセットの Null データにより削除された行をファイルに書き込むことができます。

制限事項

このオペレーターは、それぞれが数値カラムとカテゴリー カラムを持つ任意の 2 つのデータセットを受け入れることができます。ただし、2 つのデータセットのカテゴリー カラムに対応するイベント名が含まれており、数値カラムが絶対頻度を表していない限り、結果は意味がありません。たとえば、頻度は負でない必要があり、1 つのデータセット内の頻度は (集計されたかどうかにかかわらず) イベントの数である必要があります。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
観測されたデータセット 観測された頻度に対応する入力データセットの名前 (両方の入力データセットがドロップダウンに表示されます)。
観測されたイベント カラム 上で選択した観測データセットのイベント名のカラム。これはカテゴリー カラムである必要があります。イベントはカラム内で複数回発生する可能性があります。
観測頻度カラム イベントの絶対頻度の尺度を含む、観測データセット内のカラム。
期待されるデータセット 2 番目のデータセットは、観測されたデータセット内のイベントの理論的に予想される頻度を表します。
予想されるイベント カラム 指定された [期待されるデータセット] のイベント名カラム。このカラムはカテゴリー カラムである必要があります。イベントはカラム内で複数回発生する可能性があります。この場合、頻度は、すべての頻度の合計でスケールされた、同じ名前のイベントの頻度の合計です。観測されたイベントカラムのイベントは、予想されるカラムのイベントと一致する必要があります。分析は、両方のデータセットに出現するイベントについてのみ完了できます。
期待頻度カラム 予想されるイベントカラムの各イベントの絶対頻度。
有意性のしきい値 帰無仮説が棄却される信頼水準。実際には、この値は出力の [帰無仮説の拒否] カラムを決定するために使用されます。P 値 (イベント分布の分散が偶然により発生した確率を表す) がこの値より小さい場合、帰無仮説を棄却します。
Null データにより削除された行をファイルに書き込む イベント名または頻度カラムに Null 値が含まれる行は、各入力データセットから削除されます。このパラメーターを使用すると、Null 値を含むデータをファイルに書き込むように指定できます。このパラメーターは、観測された入力データセットと予想される入力データセットの両方の Null 値に適用されます。

観測されたデータセット内のヌルデータは、次の場所に書き込まれます。

@default_tempdir/tsds_out/@user_name/@flow_name/@operator_name_uuid_bad_data_observed

予期されるデータセット内の Null データは、次の場所に書き込まれます。

@default_tempdir/tsds_out/@user_name/@flow_name/@operator_name_uuid_bad_data_expected

  • Null 行をファイルに書き込まない - Null 値データを削除して結果 UI に表示しますが、外部ファイルには書き込みません。
  • Null 行の書き込みまたはカウントを行わない (最速) - Null 値データを削除しますが、カウントして結果 UI に表示しません。
  • すべての Null 行をファイルに書き込む - Null 値データを削除し、削除されたすべての行を外部ファイルに書き込みます。
ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力

このオペレーターは、次の 3 つのタブのビジュアル出力を生成します。

  • 出力 - 次のオペレーターに渡される出力のプレビューを表示します。出力は、カイ 2 乗適合度テストの結果です。この出力の構造は、カイ 2 乗、独立性テスト オペレーターと同じです。ただし、自由度はイベント結果の数に対応し、独立変数は 1 つだけです。
  • イベント頻度 - 両方のデータセット内のイベントのスケーリングされた頻度の表を表示します。この表には、観測されたデータセットと予想されるデータセットの両方に出現するイベントのみが含まれていることに注意してください。参加中にイベントがドロップされた場合、これらのイベントの最初の 10 個をリストしたメッセージがログに表示されます。これはカイ 2 乗分析の基礎となる表です。
  • サマリー - ほとんどの内容と同様TIBCO Data Science - Team Studio トランスフォーメーション オペレーターと同様に、このオペレーターには、HDFS 上の結果ロケーションを提供し、Null 値により行が削除されたかどうかを報告する概要タブが含まれています。このオペレーターの場合、[期待されるデータセット] 入力と [観測されたデータセット] 入力の両方で削除された行を報告します。不正なデータ レポートの正確な形式は、[Null データにより削除された行をファイルに書き込む] パラメーターによって制御されます。

データ出力
カイ 2 乗検定の結果 (視覚的な結果の [出力] タブでプレビュー) は、後続のオペレーターに渡されます。結果は表形式のデータセットであり、表形式の入力を必要とする任意の Hadoop オペレーターに接続できます。