为什么总是正态分布呢?
正态分布的数学公式本身就很美,使得其他分布都不如正态分布那样浑然天成。正态分布在自然界中广泛存在,比如人的身高,降雨量,农作物产量等,以至于被说成“上帝认为世界应该是正态分布的”。
如果两个独立事件相加,相减后还是独立的而且同分布,那么正态分布是唯一满足这一条件的分布。如果两个事件不相关就意味着相互独立,那么正态分布是唯一满足这一性质的分布。正态分布还具有一种稳定性。一旦某个正态分布形成后,具有吸收各种扰动,形成一个稳定形态的特性。对其他分布进行操作运算后,这些分布都有贴近正态分布的趋势。但对正态分布的和,积,傅里叶变换都还是正态分布。
在心理测量中为什么很多统计结果都接近正态分布呢?
分布具有一种属性,越多因素构成的变量越接近正态分布。在数学上这被称作中心极限定理:当观察很多个独立的事件,这些事件各自平均值和方差与总体的平均值及事件数量之间的关系可以随着观察次数的增加而无限接近于一个标准的正态分布。
而心理活动正是许多因素共同影响的。因此对于一个大的心理评价目标来说,这个目标是正态分布的。比方说智力,不管你采用哪种智力因素理论模型,由于智力是一个多种因素综合影响形成的测量目标,它的统计数据都显示为正态分布。而且当一个正态分布可以表示为两个值的和,这两个值也必须是正态分布。
如果连语言都省略的话,就用一张图来说明正态分布。
每一点表示钉在板上的一颗钉子,它们彼此的距离均相等。当小圆球向下降落过程中,碰到钉子后皆以1/2的概率向左或向右滚下。如果有n排钉子,则各槽内最终球的个数服从二项分布B(n,1/2),当n较大的时候,接近正态分布。
就算我们不知道测量的目标是什么分布,我们用最不理想的情况去假设,就是观察值毫无规律,根据最大熵原理,这时的最佳选择还是正态分布。
自然界也存在很多非正态分布的事物。当一个心理测试的统计数据不是正态分布时,这个测试的测量目标很可能是“少量因素影响的”,或者是“不同质的”。比如说我们测量很多人的血压,可以发现血压是符合正态分布的。但是血型却不是正态分布的,因为不同血型意味着“质”的不同。在心理测量中,很多概念性的维度都是按照“质”来划分的,比如人格类型,而心理测量的结果是“量”。有时候,我们也用非正态分布的观察值来逆向寻找“质的分类”。
大家经常听到一些非正态分布,比如说t分布,F分布,χ2分布,这些分布其实都是正态分布的衍生产物。另外还有很多常见的非正态分布,比如说泊松分布,二项分布,这些分布在某种条件下都逼近正态分布。