カイ 2 乗、独立性テスト

カテゴリカル カラムがカテゴリカル従属変数カラムから統計的に独立しているかどうかを決定します。

情報一覧

パラメーター

説明
カテゴリー 予測
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Spark

カイ 2 乗オペレーターの詳細については、「ピアソンのカイ 2 乗演算」を参照してください。

入力

オペレーターは Hadoop 上で表形式の入力を必要とします。入力には少なくとも 2 つのカテゴリー カラムが含まれている必要があります。1 つは独立変数を表し、もう 1 つは従属変数を表します。オペレーターは、1 回の実行で複数の独立カラムに対してカイ 2 乗検定を計算できます。この場合、各独立カラムは従属カラムと比較され、カイ 2 乗検定メトリックの出力データセット内の行を形成します。
値が不正または欠落しています
カイ 2 乗検定を計算する前に、独立カラムまたは依存カラムのいずれかに Null 値を持つ行が削除されます。これらの行は、Null データにより削除された書き込み行 パラメーターの値に従ってレポートされ、ファイルに書き込まれます。

制限事項

カテゴリー カラムに個別の値が多数 (1,000 を超える) ある場合、または多数の独立したカラムが選択されている場合、スケーラビリティの問題が発生する可能性があります。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
依存カラム カテゴリー カラム。
独立したカラム 依存カラムと比較する 1 つ以上のカテゴリー カラム。この場合の帰無仮説は、独立カラムと従属カラムのカテゴリの分布が統計的に独立しているということです。
有意性のしきい値 帰無仮説を棄却する信頼水準。実際には、この値は出力の [帰無仮説の拒否] カラムを決定するために使用されます。P 値 (イベント分布の分散が偶然により発生した確率を表す) がこの値より小さい場合、帰無仮説を棄却します。
カイ 2 乗の代わりにフィッシャーの正確確率検定を使用する より一般的でより堅牢なピアソンのカイ 2 乗検定ではなく、フィッシャーの正確検定を使用することを選択します。
ノート: 計算上および理論上の理由により、フィッシャーの正確確率検定は 2 x 2 テーブルにのみ適しています。つまり、独立変数と従属変数の可能な結果が 2 つだけであり、観測値の数が非常に少ない場合です。テーブル内のセルの値が 5 より大きい場合、フィッシャーの正確確率検定を実行することはできません。

  • はい - すべての独立変数に対してフィッシャーの正確検定を計算します。
  • いいえ (デフォルト) - カイ 2 乗検定を使用します。

Null データにより削除された行をファイルに書き込む 独立カラムまたは依存カラムの少なくとも 1 つに Null 値がある行は、分析から削除されます。このパラメーターを使用すると、Null 値を含むデータをファイルに書き込むように指定できます。

ファイルは次の場所に書き込まれます。

@default_tempdir/alpine_out/@user_name/@flow_name/@operator_name_uuid_bad_data

ドロップダウン リストから次のいずれかを指定します。

  • Null 行をファイルに書き込まない - Null 値データを削除して結果 UI に表示しますが、外部ファイルには書き込みません。
  • Null 行の書き込みまたはカウントを行わない (最速) - Null 値データを削除しますが、カウントして結果 UI に表示しません。
  • すべての Null 行をファイルに書き込む - Null 値データを削除し、削除されたすべての行を外部ファイルに書き込みます。

出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力

データ出力

各独立変数の統計検定の結果は、次のオペレーターに出力されます。ただし、これらの結果の形式は、カイ 2 乗検定とフィッシャーの直接確率検定のどちらが使用されるかによって異なります。

カイ 2 乗検定の場合、次のカラムと、選択した独立したカラムごとに 1 行を含むテーブルを出力します。

  • 独立変数: 独立カラムの名前
  • 自由度: 自由度の数。独立性のカイ 2 乗検定と適合度のカイ 2 乗検定では、自由度が異なります。
  • カイ 2 乗統計量: 検定統計量 (小数)。検定は、観察された分布と予想される分布の差を測定するものです。
  • P 値: 2 つのサンプルが同じ分布に由来する確率。P 値が低いほど、独立変数と従属変数の間の関係が大きいことを示します。P 値は、自由度と検定統計量の関数です。一般に、同じ自由度のカイ 2 乗統計量が高いと、P 値が低くなります。慣例により、0.05 を超える P 値が得られる検定 (帰無仮説を確率で 0.05 パーセント棄却する) は有意性を示すとみなされます。
  • 帰無仮説の拒否: P 値がパラメーターに設定されたアルファ値より小さいかどうか。 (デフォルトのアルファ値は 0.05 です)。

フィッシャーの正確確率検定の場合、出力は 独立変数P 値、および [帰無仮説の拒否] カラムのみです。これは、フィッシャーの正確確率検定では、確率の推定元となる検定統計量を計算するのではなく、確率を直接計算し、自由度を使用しないためです。