什么是正态分布?
正态分布是在最广泛应用的一类分布,自然界、社会、科研、生活、生产中的很多现象都被发现近似地服从正态分布,它无处不在,让你在纷繁芜杂的数据背后看到隐隐的秩序。主要指变量的频数或频率呈中间最多,两端逐渐对称地减少,表现为钟形的一种概率分布,具体的数学公式就不再提了。
为什么要进行正态分布检验?
假设检验可分为正态分布检验、正态总体均值分布检验、非参数检验三类。正态分布检验,即判断一样本所代表的背景总体与理论正态分布是否没有显著差异的检验,具有最重要的意义,也是应用最为广泛的检验方法。许多统计过程均依赖于总体正态性,是参数的前提。
提醒大家:对数据进行时,大部分数据都会拒绝正态分布假设,只要数据样本大,数据接近正态分布即可接受。
如何进行正态分布检验?
中有很多操作可以进行正态检验,主要包括p-p概率图法、q-q概率图法、峰度偏度计算法以及其他统计量的计算判断方法,今天推荐全面且高效的方法。即:
描述统计探索分析过程,计算峰度、偏度及输出q-q概率图形
(1)主要步骤:
分析——描述统计——探索分析
绘制——直方图(带检验的正态图)
(2)关于峰度 ku 和 偏度 sk 的断:
sk=0,ku=0时,分布呈正态,sk>0 时,分布呈正偏态,sk<0时,分布呈负偏态,ku>0 曲线比较陡峭,ku<0 时曲线比较平坦。
描述中有峰度系数和偏度系数,根据上述判断标准,数据不符合正态分布。本数据分布为正偏态,较陡峭。
(3)q-q 概率图
如果样本数据服从正态分布,则样本点应该围绕在第一象限的对角线上,对角线为标准正态分布理论线,否则不符合正态分布。
根据q-q概率图,明显看出本案例数据不符合正态分布,也印证了前面峰度和偏度的结果。以上分析过程是中能提供的比较全面,效率较高的正态检验方法。其他方法不再详细介绍,可参考相关教程。
不完全符合正态分布应该怎么办?
如果深究下去,你会发觉正态分布是最不讲理的分布,因为许多方法,都是基于正态分布的假设条件下的,而现实中完全的正态分布存在较少,大多是有偏态的,这时候怎么办,不符合正态分布,意味着不符合许多方法的适用条件,不少人在这个地方感动无奈和沮丧。
我的建议,深入研究你期望使用的方法,查看它适用条件的严苛程度,比如方差分析,它有“样本独立”“正态”“方差齐”的条件,首先,我们判断出方差分析对“样本独立”的条件是最为严苛的,但这个条件基本都满足,同时,我们了解到方差分析模型本身的稳定性比较好,所以,可以认为,在样本充足的状况下,因变量不过分的偏态(非完全正态),是可以接受的。
总结一句:对于正态分布检验的使用,应结合具体的方法,判断它对于正态检验的严苛程度,如果这个条件不允许“近似”,必须严谨对待,则考虑使用非参数检验。如果模型建模相对稳定,则可以考虑适度的降低对正态分布的严苛程度。供参考。