t 検定 - ペアとなっているサンプル

同じデータ ポイントの 2 つの測定値について統計的有意性の検定を計算します。これは、2 つのカラムの差と既知の平均ゼロに対して単一サンプルの t 検定を計算するのと同じです。

情報一覧

パラメーター

説明
カテゴリー モデルの検証
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Spark

ペアとなっているサンプルの t 検定は、同じ統計単位で測定された 2 つの応答が有意に異なるかどうかを検定するために使用されます。数学的には、これは、想定平均値 0.0 に対して、各行の 2 つのサンプルの差分に対して単一サンプルの t 検定を実行するのと同じです。

スチューデントの t 分布については、https://en.wikipedia.org/wiki/Student%27s_t-distribution を参照してください。

アルゴリズム

すべてのテスト統計の平均と分散は、Spark の MultivariateStatisticalsummary オブジェクトを使用して計算されますが、t 検定自体は Java の commons-math ライブラリから計算されます。

入力

数値カラムを含む表形式のデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
最初のカラム t 検定を計算する最初のメジャー。これは数値列である必要があります。
2 列目 t 検定を計算する 2 番目のメジャー。これは数値列である必要があります。
Null データにより削除された行をファイルに書き込む Null 値を含む行は分析から削除されます。このパラメーターを使用すると、Null 値を含むデータをファイルに書き込むように指定できます。

ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名の接尾辞は _baddata です。

  • Null 行をファイルに書き込まない - Null 値データを削除して結果 UI に表示しますが、外部ファイルには書き込みません。
  • Null 行の書き込みまたはカウントを行わない (最速) - Null 値データを削除しますが、カウントして結果 UI に表示しません。
  • すべての Null 行をファイルに書き込む - Null 値データを削除し、削除されたすべての行を外部ファイルに書き込みます。

ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。

出力

ビジュアル出力
ペアとなっているサンプルの t 検定の使用法を示す子犬の訓練プログラムのデータ例については、「ペアとなっているサンプルの t 検定の使用例」を参照してください。この場合、どの p 値も 0 に近いものがないため、平均して、子犬はトレーニング プログラム後のスキル テストで統計的に優れているわけではないことがわかります。

データ出力
  • T 統計量 - 平均と分散に基づいて計算された値。t 統計量が大きいほど、平均間の差が大きくなります。
  • 両側 PValue - スチューデントの t 分布の下で、t 統計の絶対値を上回り、t 統計の逆数を下回る面積の合計。値が大きいほど、比較されるサンプルの絶対差が大きいことを示します。通常、p < 0.05 の場合、帰無仮説は棄却されます。
  • 下側片側 PValue - 負の無限大と t 統計量の間のスチューデントの t 分布の下の面積。p 値が低いほど、サンプル a がサンプル b より小さいことを示します。通常、p < 0.05 の場合、帰無仮説は棄却されます。
  • 上部片側 PValue - 正の無限大と t 統計量の間のスチューデントの t 分布の下の面積。p 値が低いほど、サンプル a がサンプル b よりも大きいことを示します。通常、p < 0.05 の場合、帰無仮説は棄却されます。