离群值处理
1、处理方式
处理离群值的方式有:
a)保留离群值并用于后续数据处理;
b)在找到实际原因时修正离群值,否则予以保留;
c)剔除离群值,不追加观测值;
d)剔除离群值,并追加新的观测值或用适宜的插补值代替。
格鲁布斯检验方法:
在定量分析实验中,实验结束后,必须对分析数据进行处理,在一组分析数据中,往往有个别数据与其它数据相差较大,这种个别数据称为可疑值。
对可疑值的处理,应首先回顾和检查生产可疑值的实验过程,有无可觉察到的技术上的异常原因。
当原因不明时,必须按一定的数理统计方法进行处理,决定是保留还是舍弃。
格鲁布斯检验法效果比较好的方法。格鲁布斯检验法的优点是在判断可疑值取舍的过程中,将正态分布中的两个最重要的参数—平均值和标准偏差引进来,故方法的准确性较高。方法计算的过程是这样的:
1.实验得出一组数据X1;X2;X3;X4……Xn,怀疑其中某个数据可疑(X可疑)
2.计算X1;X2;X3;X4……Xn 的平均数(X平均)标准偏差(S)
3.计算格鲁布斯G计算=(X平均-X可疑)/S,取绝对值
4.查表求格鲁布斯G查表
5.若G计算≥G查表,则可疑数据舍去,反之保留
2、处理规则
对检出的离群值,应尽可能寻找其技术上和物理上的原因,作为处理离群值的依据。应根据实际问题的性质,权衡寻找和判定产生离群值的原因所需代价、正确判定离群值的得益及错误剔除正常观测值的风险,以确定实施下述三个规则之一:
a)若在技术上或物理上找到了产生离群值的原因,则应剔除或修正;若未找到产生它的物理上和技术上的原因,则不得剔除或进行修正。
b)若在技术上或物理上找到产生离群值的原因,则应剔除或修正;否则,保留歧离值,剔除或修正统计离群值;在重复使用同一检验规则检验多个离群值的情形,每次检出离群值后,都要再检验它是否为统计离群值。
若某次检出的离群值为统计离群值,则此离群值及在它前面检出的离群值(含歧离值)都应被剔除或修正。
c)检出的离群值(含歧离值)都应被剔除或进行修正。
3、备案
被剔除或修正的观测值及其理由应予记录,以备查询。