t 検定 - ペアとなっているサンプル
同じデータ ポイントの 2 つの測定値について統計的有意性の検定を計算します。これは、2 つのカラムの差と既知の平均ゼロに対して単一サンプルの t 検定を計算するのと同じです。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | モデルの検証 |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | Spark |
ペアとなっているサンプルの t 検定は、同じ統計単位で測定された 2 つの応答が有意に異なるかどうかを検定するために使用されます。数学的には、これは、想定平均値 0.0 に対して、各行の 2 つのサンプルの差分に対して単一サンプルの t 検定を実行するのと同じです。
スチューデントの t 分布については、https://en.wikipedia.org/wiki/Student%27s_t-distribution を参照してください。
アルゴリズム
すべてのテスト統計の平均と分散は、Spark の MultivariateStatisticalsummary オブジェクトを使用して計算されますが、t 検定自体は Java の commons-math ライブラリから計算されます。
入力
数値カラムを含む表形式のデータセット。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 最初のカラム | t 検定を計算する最初のメジャー。これは数値列である必要があります。 |
| 2 列目 | t 検定を計算する 2 番目のメジャー。これは数値列である必要があります。 |
| Null データにより削除された行をファイルに書き込む | Null 値を含む行は分析から削除されます。このパラメーターを使用すると、Null 値を含むデータをファイルに書き込むように指定できます。 ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名の接尾辞は _baddata です。
|
| ストレージ フォーマット | 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。 一般的な形式は、Avro、CSV、TSV、または Parquet です。 |
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプション。
利用可能な Avro 圧縮オプション。
|
| 出力ディレクトリ | 出力ファイルを保存する場所。 |
| 出力名 | 結果を含める名前。 |
| 出力を上書き | そのパスにある既存のデータを削除するかどうかを指定します。
|
出力
ビジュアル出力
ペアとなっているサンプルの t 検定の使用法を示す子犬の訓練プログラムのデータ例については、「ペアとなっているサンプルの t 検定の使用例」を参照してください。この場合、どの p 値も 0 に近いものがないため、平均して、子犬はトレーニング プログラム後のスキル テストで統計的に優れているわけではないことがわかります。

データ出力
- T 統計量 - 平均と分散に基づいて計算された値。t 統計量が大きいほど、平均間の差が大きくなります。
- 両側 PValue - スチューデントの t 分布の下で、t 統計の絶対値を上回り、t 統計の逆数を下回る面積の合計。値が大きいほど、比較されるサンプルの絶対差が大きいことを示します。通常、p < 0.05 の場合、帰無仮説は棄却されます。
- 下側片側 PValue - 負の無限大と t 統計量の間のスチューデントの t 分布の下の面積。p 値が低いほど、サンプル a がサンプル b より小さいことを示します。通常、p < 0.05 の場合、帰無仮説は棄却されます。
- 上部片側 PValue - 正の無限大と t 統計量の間のスチューデントの t 分布の下の面積。p 値が低いほど、サンプル a がサンプル b よりも大きいことを示します。通常、p < 0.05 の場合、帰無仮説は棄却されます。