卡方拟合优度分析(卡方的拟合优度检验的含义)
白话统计阅读笔记:卡方用于拟合优度评价
从上一篇我们可以看出,卡方检验的思想不是通过比较两个率的大小,而是比较实际频数和理论频数的差异,实际上就是拟合优度的思想,即看实际值和理论值的差异有多大。
在模型评价中,根据实际值与模型预测值的差异大小,判断模型是否很好地拟合了数据,在判断数据是否服从某一分布时,根据其理论分布与实际数据的差异做出判断,下面从Hardy-Weinberg定律和二项分布拟合优度检验来进一步说明卡方检验拟合优度的思想。
本书在P184给出了病例和对照的某基因型频率,其中对照组的基因型频率及等位基因频率在表中给出,本研究想要判断对照组的基因型分布是否符合Hardy-Weinberg定律,首先该研究可以根据实际数据的基因型频率计算出等位基因频率,然后再根据p2+q2=1,计算出理论基因型的频率,如果实际数与理论数一致,说明对照组的基因型频率分布符合Hardy-Weinberg定律。
结合本研究给出的数据计算得到的卡方值,按照自由度等于(3-1)X(2-1)=2,此时对应的P值为0.0005,则可以认为对照组的基因型分布不符合Hardy-Weinberg定律。
在二项分布的拟合优度检验中,本书在P185给出了一个例子,调查150户三口之家某病的发病率,在表中给出了每户发生疾病的人数,现在想通过拟合优度检验来判断该病的发病率是否具有家庭聚集性,对于该例,实际上也就是判断该病的发病率是否服从二项分布,因为如果其服从二项分布,那就是独立的,意味着不存在家庭聚集性。所以需要知道根据当前的发病率,如果服从二项分布,则理论上应该发生的例数是多少,然后通过拟合优度检验来评价实际发病数和理论发病数的差别有多大,如果差别不大,则说明符合二项分布,否则认为不服从二项分布,即认为可能具有家族聚集性。根据卡方检验的公式计算出拟合度,自由度为2时对应的P值小于0.001,可以认为该病的发病率不符合二项分布,即该病可能具有家庭聚集性。
Ref: 《白话统计》 冯国双著
温馨提示:通过以上关于白话统计阅读笔记:卡方用于拟合优度评价内容介绍后,相信大家有新的了解,更希望可以对你有所帮助。