t 検定 - 単一サンプル

(1 つのカラムからの) 一連の数値と既知の平均との間の統計的有意性を検定します。このオペレーターを使用すると、1 つのオペレーターで複数の異なるサンプル カラムにわたるテストを計算できます。

情報一覧

パラメーター

説明
カテゴリー モデルの検証
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Spark

単一サンプルの t 検定は、サンプル母集団の平均値が既知の母集団平均値と大きく異なるかどうかを検定するために使用されます。

スチューデントの t 分布については、https://en.wikipedia.org/wiki/Student%27s_t-distribution を参照してください。

アルゴリズム

すべてのテスト統計の平均と分散は、Spark の MultivariateStatisticalsummary オブジェクトを使用して計算されますが、t 検定自体は Java の commons-math ライブラリから計算されます。

入力

数値カラムを含む表形式のデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
サンプル カラム t 検定を計算する数値のカラムを選択します。
推定平均 t 検定の計算対象となる数値 (母集団平均) を入力します。
不正なデータをファイルに書き込む Null 値を含む行は分析から削除されます。このパラメーターを使用すると、Null 値を含むデータをファイルに書き込むように指定できます。

ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名の接尾辞は _baddata です。

  • Null 行をファイルに書き込まない - Null 値データを削除して結果 UI に表示しますが、外部ファイルには書き込みません。
  • Null 行の書き込みまたはカウントを行わない (最速) - Null 値データを削除しますが、カウントして結果 UI に表示しません。
  • すべての Null 行をファイルに書き込む - Null 値データを削除し、削除されたすべての行を外部ファイルに書き込みます。
ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。

出力

ビジュアル出力
各行は、サンプル カラム パラメーターで選択されたカラムを表します。

単一サンプルの t 検定の使用法を示す子犬の訓練プログラムのデータ例については、「単一サンプルの t 検定の使用例」を参照してください。この場合、Score_Before_Training カラムの Upper One Tailed PValue がゼロに非常に近く、子犬をトレーニングした後は、平均を上回る子犬がいることがわかります。 Score_After_Training カラムの Upper One Tailed PValue もゼロに近いため、依然として平均を上回っています。

データ出力
  • T 統計量 - 平均と分散に基づいて計算された値。t 統計量が大きいほど、平均間の差が大きくなります。
  • 両側 PValue - スチューデントの t 分布の下で、t 統計の絶対値を上回り、t 統計の逆数を下回る面積の合計。値が大きいほど、比較されるサンプルの絶対差が大きいことを示します。通常、p < 0.05 の場合、帰無仮説は棄却されます。
  • 下側片側 PValue - 負の無限大と t 統計量の間のスチューデントの t 分布の下の面積。p 値が低いほど、サンプル a がサンプル b より小さいことを示します。通常、p < 0.05 の場合、帰無仮説は棄却されます。
  • 上部片側 PValue - 正の無限大と t 統計量の間のスチューデントの t 分布の下の面積。p 値が低いほど、サンプル a がサンプル b よりも大きいことを示します。通常、p < 0.05 の場合、帰無仮説は棄却されます。