当测量数据不符合正态分布时的情况及原因(不服从正态分布用什么检验)
导语:测量值不服从正态分布该怎么办?
在统计过程控制中,为什么数值不服从正态分布,如果不服从正态分析,我们又该怎么处理?
问:在统计过程控制的活动中,计量型特征值不服从正态分布是怎么回事?
答:正态分布是我们基于样本信息,对其背后虚构的总体中数值的分布情况进行描述用的,当样本数据证明背后的总体不服从正态分布时,我们应该先考虑数据的来源。
1、在统计过程控制中,为什么特征值不服从正态分布?
一般的,我们用样本的直方图去推断总体中数值的分布情况,如果量具的分辨率相对于过程变差而言不够,则测量出的数值不同数量太少,会影响到对背后总体分布模型的推断,此时,就会出现不服从正态分布的情况。如下图所示。
当量具的分辨率足够去分辨特征值变差时,如果此时数值不是正态分布。
在通常的QC7大手法培训时,告诉大家,要看直方图是不是有分层,是否有左倾或右倾趋势,是否有孤岛型等,这些方法都帮助去查找为什么数值结果不是正态的原因,我们这里不做详细展开说明。
对于统计过程控制的数据,通常是按照时间次序抽取的样本测量得到的数值,通常可以用单值运行图,去观察数据,查找为什么数据不符从正态分布,往往能得到更多信息。如下图所示:
要强调一点,并不是所有的特征值理论上就应该是服从正态分布,现实生产过程中,有很多不服从正态分布的实例,下面列一下
单边公差,一侧界限为0的特性
鉴于物理原因,分布是不对称的(如上面第一张图)
•实例: 表面测量 (粗糙度),失圆度, ...
过程有某种趋势
•经典实例:工具磨损(如上面第二张图)
特性的“非随机变差”
•自然的原材料易受特殊原因的变差
•供应商无法提供均一的品质(如上面第三张图)
•工具更改造成的波动,...
对于这些过程,不服从正态分布是它们固有的特点。我们追求“能力”满足要求或者追求过程要“受控”,并不是为了追求数值符合正态分布,我们的目的是为了追求特性值尽可能一直靠近目标值“built to nominal”。
当我们知道过程是由于上面这些原因,导致特征值不服从正态分布,过程是按预计的时间分布模型来生产数据,非正态分布是可以接受的。当然,如果有些特征值理论是应该符合正态分布,但在过程改进初期,对过程中的关健影响因素没有透彻了解而导致结果不符合正态分布,这时通常会要求尽可能去调查了解原因,尽可能去改进并让过程"受控"。
2、非正态分布如何计算过程能力/性能?
(以上是正态时的能力分析公式)
对于非正态分布如何去计算过程能力或过程性能呢?
能力分析是建立随机采样的结果上,获取关于过程表现,以及对未知总体的信息,通常这些分析是基于总体分布已知的情况。对于总体分布模型的推断,需要先预设一个默认的分布,通过假设检验的方法,如果样本不足以拒绝,就会接受该分布模型,而对于默认分布模型的选择可以根据测量特征值的类型来选取,如下图所示:
当然,关于默认分布模型的选择,在不同公司根据自身的理解,有不同的标准。
一旦分布模型选择好了,基于ISO22514国际标准的百分位数法,就可以同样计算这些过程的能力指数了,这些分析通常可以借助专业的软件来自动执行。
3、总结
当在统计过程控制中,发现数值非正态分布时,我们需要从样本数据本身出发,去寻找非正态分布的原因,第一个想到的就是测量量具的分辨率是否具有足够的,如果量具的分辨率都不够,是不足以去区分测量过程的变差,并建立合理的分布模型的。另一个方面,可以从测量值的时间系列中获取过程关于时间的表现信息,如果过程是按预计的模式生成的数据,只要过程是受控,不是正态分布也是可以接受的。当然,如果过程的表现不受控,则需要去调查原因,并做出改进。
我们进行过程控制,进行能力分析的目标是为了确保过程的输出尽可能一直靠近目标值,并不是为了追求正态分布,当实际过程是受控,但测量数值经证明不符合正态分布时,我们可以用不同的分布模型去匹配现实中的数据,默认分布模型不同公司有不同的选择,通常报告能力指数时,应该把这些信息同时报告给客户。
本文内容由小奈整理编辑!