中实现正态性转换的小工具。当研究中的数据不符合正态分布时,我们常常会借助中位数、四分位数等指标描述数据,并采用非参数检验的方法进行。但个别时候,我们希望采用一些简单的回归模型进行探索,而多数我们熟悉的模型都对数据分布的正态性有或多或少的要求,那么如何才能让不那么正态的数据分布变得正态起来呢?
数据的正态性转换是个复杂的技术活,我们通常会描述数据的实际分布,根据数据的分布特点寻找接近的函数尝试进行正态性转换。但是如果仅仅是进行探索,这么折腾一大通实在是太浪费时间,等转换完成,再想进一步分析的时候,估计脑子早已经是一团乱麻了。那么有没有简单粗暴的方法,让数据分布迅速正态起来呢?答案当然是有的!
其实下就有一个小工具,能够实现数据的正态性转换。而且这一工具的神奇之处是,不管数据的原始分布如何,都能将其转换成最标准的整体分布(坏笑)。其实原理真的很简单粗暴,就是直接将数据排序,然后结合标准正态分布对每个位置的数据重新赋值,最终得到的数据当然是完美的和标准正态分布一致了。
这是一个有些右偏的数据。我们对数据进行如下操作:
如此操作之后,就会新生成一个编制后的变量,变量会被保存在数据的末尾。
让我们比较一下编制前后的分布吧!
瞬间华丽的变身为正态分布的数据了有没有!
需要提醒大家的是,基于正态得分编秩法得到的数据并不能直接当做正态数据使用,毕竟由于我们基于正态得分的编制,给变量加入了很多原本不属于他的分布特征。因此转换后的数据的标准差、方差等信息与原始数据并不一致。这种转换,仅能用作我们在建立复杂模型时的探索。关于正态性转换应该合适使用的问题,还需要各位读者查阅更多相关资料。