t 検定 - 独立したサンプル

2 つの異なるグループにわたる 1 つの測定値について、生徒の t 分布に対する統計的有意性の検定を計算します。

情報一覧

パラメーター

説明
カテゴリー モデルの検証
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Spark

独立サンプルの t 検定は、2 つのグループが同じ測定値に対して有意に異なるかどうかを検定するために使用されます。

スチューデントの t 分布については、https://en.wikipedia.org/wiki/Student%27s_t-distribution を参照してください。

アルゴリズム

すべてのテスト統計の平均と分散は、Spark の MultivariateStatisticalsummary オブジェクトを使用して計算されますが、t 検定自体は Java の commons-math ライブラリから計算されます。

入力

数値カラムを含む表形式のデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
サンプル値を含む数値列。
テストするカラム テストするカラムを指定します。
グループ・バイするカラム 2 つのサンプルを分離するために使用されるカテゴリ列。
最初のグループ値 (グループ別列に表示されます) 最初のサンプルのグループの名前。これは、[グループ・バイするカラム] リストの値である必要があります。
ノート: たとえば、特定の候補者に投票した人と投票しなかった人を分割するには、カラムの値が[はい] と「いいえ」であると仮定して、最初のグループ値として[はい] を指定し、「いいえ」を指定できます。 2 番目のグループ値として。
2 番目のグループ値 (グループごとのカラムに表示されます) 2 番目のサンプルのグループの名前。これは、[グループ・バイするカラム] リストの値である必要があります。
標本平均の分散は等しい (等分散性 t 検定) 等分散性 t 検定を使用するかどうかを指定します ([いいえ] または [はい])。
Null データにより削除された行をファイルに書き込む Null 値を含む行は分析から削除されます。このパラメーターを使用すると、Null 値を含むデータをファイルに書き込むように指定できます。

ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名の接尾辞は _baddata です。

  • Null 行をファイルに書き込まない - Null 値データを削除して結果 UI に表示しますが、外部ファイルには書き込みません。
  • Null 行の書き込みまたはカウントを行わない (最速) - Null 値データを削除しますが、カウントして結果 UI に表示しません。
  • すべての Null 行をファイルに書き込む - Null 値データを削除し、削除されたすべての行を外部ファイルに書き込みます。

高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。
ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。

出力

ビジュアル出力
独立したサンプルの t 検定の使用法を示す子犬の訓練プログラムのデータ例については、「独立したサンプルの t 検定の使用例」を参照してください。結果には、サンプル列 パラメーターで選択したカラムごとに 1 行が含まれます。この場合、どの p 値も 0 に近いものがないため、ジェニーが訓練した子犬のパフォーマンスは、訓練の前後でレイチェルが訓練した子犬と大きく変わらないことがわかります。

データ出力
  • T 統計量 - 平均と分散に基づいて計算された値。t 統計量が大きいほど、平均間の差が大きくなります。
  • 両側 PValue - スチューデントの t 分布の下で、t 統計の絶対値を上回り、t 統計の逆数を下回る面積の合計。値が大きいほど、比較されるサンプルの絶対差が大きいことを示します。p < 0.05 の場合、帰無仮説は通常棄却されます。
  • 下部片側 PValue - 負の無限大と t 統計量の間のスチューデントの t 分布の下の面積。p 値が低いほど、サンプル a がサンプル b より小さいことを示します。p < 0.05 の場合、帰無仮説は通常棄却されます。
  • 上部片側 PValue - 正の無限大と t 統計量の間のスチューデントの t 分布の下の面積。p 値が低いほど、サンプル a がサンプル b よりも大きいことを示します。p < 0.05 の場合、帰無仮説は通常棄却されます。