Spotfire® 用户指南

数据关系方差分析算法

“方差分析”选项通过比较每组数据的平均值计算组间差异。通过检验无效假设获得结果;假设各组平均值无差异。比较正式地讲,p 值是在无效假设为真的前提下出现观察样本或更极端情况的概率。

注: 如果数据表中存在空值,则首先要减少数据表行数,仅保留第一列和第二列均包含值的行。

对于每个类别列和值列的组合,p 值计算公式如下所示:

  1. 根据类别列中的值对行进行分组。
  2. 计算值列的总平均值。

  3. 计算每个组内平均值。
  4. 计算每个值与组内平均值的差值,然后计算每个差值的平方。
  5. 将每个差值的平方相加。所得值和行与相应组平均值的总偏差相关。此值称为组内平方和或 S2Wthn
  6. 对于每个组,计算总平均值与组平均值之间差值的平方,然后乘以组内值的数目。将每个组的计算结果相加。所得结果称为组间平方和或 S2Btwn

  7. 这两个平方和用于获得检验无效假设的统计量,称为 F 统计量。F 统计量计算公式如下所示:

    其中dfBtwn(组间自由度)等于组数减去 1,dfWthn(组内自由度)等于值的总数减去组数。

  8. F 统计量服从 F 分布(通常在数学表/手册中提供)。根据 F 统计量、自由度和 F 分布表,即可计算出 p 值。

p 值是在无效假设为真的前提下出现观察样本或更极端情况的概率。p 值越小,差异越大。

注: 如果影响很小,但是样本容量很大,也会出现非常小的 p 值。同样,如果影响很大,但是样本容量很小,可以出现较大的 p 值。这是因为假设检验影响是否为零。

引用

Arnold, Steven F.,The Theory of Linear Models and Multivariate Analysis。