ピアソンのカイ 2 乗オペレーション
TIBCO Data Science - Team Studio は、Hadoop データセットを予測するための 2 つのカイ 2 乗オペレーターを提供します。
独立性テスト
カイ 2 乗、独立性テスト を使用すると、カテゴリー カラムがカテゴリ従属変数カラムから統計的に独立しているかどうかを判断できます。
たとえば、性別とブラウザの種類という要素を含むユーザーの離脱のデータセットがある場合、独立性テスト オペレーターを使用して、性別と離脱の間、またはブラウザと離脱の間に有意な統計的関係があるかどうかを判断できます。独立性のカイ 2 乗検定は、多くのカテゴリ変数を含むデータに対して推論統計を実行するための基礎として、またはロジスティック回帰やデシジョン ツリーにどの要素を含めるかを決定するための探索的なデータ ステップとして使用できます。ピアソンのカイ 2 乗独立性テストの Mllib 実装を利用します。
このオペレーターには、フィッシャーの正確確率検定を使用するオプションも含まれています。フィッシャーの直接確率検定は、カイ 2 乗検定と同様の統計的有意性検定ですが、仮定がわずかに異なります。フィッシャーの正確確率検定は、サンプル サイズが小さく (セル サイズが 5 未満)、2 x 2 テーブルでのみ計算できる場合に推奨されます。このオペレーターは、フィッシャーの直接確率検定で説明されている式に基づいています。
イベントの頻度が正規分布または既知の分布と異なるかどうかを調べるには、カイ 2 乗、適合度 オペレーターの使用を検討してください。
量的変数間の統計的有意性を調べるには、t 検定オペレーターの1つを使用することを検討します (詳細については、「t 検定 - 独立したサンプル」、「t 検定 - 対応のあるサンプル」、あるいは 「t 検定 - 単一サンプル」を参照ください)。
ここに面白い事実があります。: フィッシャーがこのテストを開発したのは、友人の Muriel Bristol 博士が、ミルクを先に注いだ紅茶と、ミルクを後から加えた紅茶の違いを見分けることができると主張したことを検証するための実験結果を分析するためでした。
適合度 (Goodness of Fit)
カイ 2 乗、適合度を使用して、分布の適合度をテストできます。
この場合、カイ 2 乗検定は、イベントの頻度の 2 つのベクトル、つまり観測された頻度のベクトルと期待される頻度のベクトルに対して実行されます。帰無仮説は、各セルの頻度 (発生する各イベントの頻度) が、観測された分布と予想される分布で等しいということです。このテストは、自由度が可能なイベントの数から 1 を引いたものに等しいと仮定しているため、独立性のテストとは異なります。
この検定は、ある既知の理論分布に対して観測された結果を検定するために使われるべきです。したがって、我々は、2つの異なるデータ集合の観測された頻度データと期待される頻度データを受け入れるように演算子を設計しました。(ほとんどの場合、期待されるベクトルは、各個別のイベントの度数の合計ですでに集約されており、一方、観測されたベクトルは、各観測を行とする実データから得られます)。我々の実装では、Spark MLlib によるカイ 2 乗検定を利用しています。検定の入力ベクトルとして、観測データセットと期待データセットの絶対度数を使います。