> 设计

当测量数据不符合正态分布时的情况及原因(不服从正态分布用什么检验)

导语：测量值不服从正态分布该怎么办？

在统计过程控制中，为什么数值不服从正态分布，如果不服从正态分析，我们又该怎么处理？

问：在统计过程控制的活动中，计量型特征值不服从正态分布是怎么回事？

答：正态分布是我们基于样本信息，对其背后虚构的总体中数值的分布情况进行描述用的，当样本数据证明背后的总体不服从正态分布时，我们应该先考虑数据的来源。

1、在统计过程控制中，为什么特征值不服从正态分布?

一般的，我们用样本的直方图去推断总体中数值的分布情况，如果量具的分辨率相对于过程变差而言不够，则测量出的数值不同数量太少，会影响到对背后总体分布模型的推断，此时，就会出现不服从正态分布的情况。如下图所示。

当量具的分辨率足够去分辨特征值变差时，如果此时数值不是正态分布。

在通常的QC7大手法培训时，告诉大家，要看直方图是不是有分层，是否有左倾或右倾趋势，是否有孤岛型等，这些方法都帮助去查找为什么数值结果不是正态的原因，我们这里不做详细展开说明。

对于统计过程控制的数据，通常是按照时间次序抽取的样本测量得到的数值，通常可以用单值运行图，去观察数据,查找为什么数据不符从正态分布，往往能得到更多信息。如下图所示:

要强调一点，并不是所有的特征值理论上就应该是服从正态分布，现实生产过程中，有很多不服从正态分布的实例，下面列一下

单边公差，一侧界限为0的特性

鉴于物理原因，分布是不对称的(如上面第一张图）

•实例：表面测量 (粗糙度)，失圆度， ...

过程有某种趋势

•经典实例：工具磨损(如上面第二张图）

特性的“非随机变差”

•自然的原材料易受特殊原因的变差

•供应商无法提供均一的品质(如上面第三张图）

•工具更改造成的波动，...

对于这些过程，不服从正态分布是它们固有的特点。我们追求“能力”满足要求或者追求过程要“受控”，并不是为了追求数值符合正态分布，我们的目的是为了追求特性值尽可能一直靠近目标值“built to nominal”。

当我们知道过程是由于上面这些原因，导致特征值不服从正态分布,过程是按预计的时间分布模型来生产数据，非正态分布是可以接受的。当然，如果有些特征值理论是应该符合正态分布，但在过程改进初期，对过程中的关健影响因素没有透彻了解而导致结果不符合正态分布，这时通常会要求尽可能去调查了解原因，尽可能去改进并让过程"受控"。

2、非正态分布如何计算过程能力/性能？

（以上是正态时的能力分析公式）

对于非正态分布如何去计算过程能力或过程性能呢？

能力分析是建立随机采样的结果上，获取关于过程表现，以及对未知总体的信息，通常这些分析是基于总体分布已知的情况。对于总体分布模型的推断，需要先预设一个默认的分布，通过假设检验的方法，如果样本不足以拒绝，就会接受该分布模型，而对于默认分布模型的选择可以根据测量特征值的类型来选取，如下图所示：

当然，关于默认分布模型的选择，在不同公司根据自身的理解，有不同的标准。

一旦分布模型选择好了，基于ISO22514国际标准的百分位数法，就可以同样计算这些过程的能力指数了，这些分析通常可以借助专业的软件来自动执行。

3、总结

当在统计过程控制中，发现数值非正态分布时，我们需要从样本数据本身出发，去寻找非正态分布的原因，第一个想到的就是测量量具的分辨率是否具有足够的，如果量具的分辨率都不够，是不足以去区分测量过程的变差，并建立合理的分布模型的。另一个方面，可以从测量值的时间系列中获取过程关于时间的表现信息，如果过程是按预计的模式生成的数据，只要过程是受控，不是正态分布也是可以接受的。当然，如果过程的表现不受控，则需要去调查原因，并做出改进。

我们进行过程控制，进行能力分析的目标是为了确保过程的输出尽可能一直靠近目标值，并不是为了追求正态分布，当实际过程是受控，但测量数值经证明不符合正态分布时，我们可以用不同的分布模型去匹配现实中的数据，默认分布模型不同公司有不同的选择，通常报告能力指数时，应该把这些信息同时报告给客户。

本文内容由小奈整理编辑！