logistic回归中的o值(logistics回归o值怎么看)
导语:Logistic回归的OR值意味着什么?
OR
逻辑回归
逻辑回归的名称虽然里面有“回归”二字,但它实际上是一种分类学习方法。常见的使用场景有两种:一是预测,二是寻找因变量的影响因素。
1
线性回归与Logistic回归
线性回归和逻辑回归都是广义线性模型的一种特殊情况。
假设有一个因变量y和一组自变量x1, x2, x3, ... , xn,当y为连续变量时,不难拟合一个线性方程:
然后采用最小二乘法估计这个方式当中的各个系数β的值。
但是,如果 y 是一个只能取 0 或 1 值的二元变量,则线性回归方程会遇到困难。方程的右边是一个从负无穷到正无穷范围内的连续值,但左边的值则属于[0,1],两边的值不匹配。
为了克服这一阻碍进行线性回归,统计学家想出了一种变换方法,即:将等式右边的值变换为[0,1]。最后,选择采用logistic函数进行变换。
logistic函数为:
它是一个取值范围为(0,1)的s型函数,可以将任意值映射到(0,1),并且具有无穷导数等优良的数学性质。
在变化以后,回归方程就变为:
这样,等式两边的取值范围就都处于0和1之间了!
再进行一下Logit变换,得到:
在上面这个公式里,可以将y看作y取值为1的时候的概率p(y=1),那么1-y便是y取值为0的时候的概率p(y=0)。
从而能够进一步得到:
处理变换到这里,我们就可以回到最初的思路,通过最小二乘法估计β的值了。
2
odds与OR的含义
Odds:称为暴露比值,也称为几率、比值、比数,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。用p表示事件发生的概率,则:odds = p/(1-p)。
OR:称作“优势比”(odds ratio),也称“比值比”,为实验组的事件发生几率(odds1)/对照组的事件发生几率(odds2),反映的是某种暴露与结局的关联强度。
3
怎么理解OR值
上面的描述在新手看来简直“不明觉厉”:什么优势?啥又是优势比?关联强度又是啥?
为了加深了解,让我们结合例子来细细体会。
假设一下,如果我们想要探讨熬夜是否会导致肥胖的发生,应该怎么办?
回忆一下我们初中学的做生物实验的思路,很容易便想到:找两组人,一组是肥胖人群,另一组则是不肥胖人群,然后,分别调查这两组人群哪些人熬夜、哪些人不熬夜。
如果我们调查得到的情况是下面这样的:
可以看到,肥胖组一共有40人,其中24人熬夜,16人不熬夜。我们就称“熬夜”是一种“暴露”。
不难看出,“暴露”指代的内容非常广泛。一般来说,有我们感兴趣的元素的研究对象就可以被称为“暴露组”;而没有这些因素的研究对象就可以被称为“非暴露组”。感兴趣的元素可以包括各种特征(性别、年龄、教育程度等)、某个特定行为(饮酒、运动、吸烟),或接触某个特定的物质(PM2.5等)。
至于“暴露与结局的关联强度”,在假设的例子当中,所谓的“结局”便是“是否肥胖”,也可以理解为“因变量Y”。
那“暴露比值”在假设的例子当中意味着什么呢?
其中,对于患有肥胖的对象,暴露比值为:熬夜的比例除以不熬夜的比例,即为:25/15 = 1.67;
同样,在不肥胖的人群中,也可以计算一个熬夜的比例除以不熬夜的比例,即为:19/21 = 0.90。
把这两个比例相除,就得到了熬夜与肥胖相关关系的OR值,即OR = 1.67/0.90= 1.86>1。
由此可以进行初步的推断:熬夜会增加肥胖的风险。
总的来说,当结果出现记为1,不出现记为0时,OR值的含义可以总结为:
OR = 1,暴露与结局之间没有相关性;
OR> 1,暴露可能会促进结局的出现;
OR<1,曝光会阻碍结局的出现。
而Logistic回归很重要的一点在于可以直接输出OR值,这一值甚至比直接的回归系数(β)还更有意义。
OR值与回归系数β的数量关系为:OR = eβ
免责声明:本站部份内容由优秀作者和原创用户编辑投稿,本站仅提供存储服务,不拥有所有权,不承担法律责任。若涉嫌侵权/违法的,请反馈,一经查实立刻删除内容。本文内容由快快网络小洁创作整理编辑!