搜索
写经验 领红包
 > 自然

logistic回归中的o值(logistics回归o值怎么看)

导语:Logistic回归的OR值意味着什么?

OR

逻辑回归

逻辑回归的名称虽然里面有“回归”二字,但它实际上是一种分类学习方法。常见的使用场景有两种:一是预测,二是寻找因变量的影响因素。

1

线性回归与Logistic回归

线性回归和逻辑回归都是广义线性模型的一种特殊情况。

假设有一个因变量y和一组自变量x1, x2, x3, ... , xn,当y为连续变量时,不难拟合一个线性方程:

然后采用最小二乘法估计这个方式当中的各个系数β的值。

但是,如果 y 是一个只能取 0 或 1 值的二元变量,则线性回归方程会遇到困难。方程的右边是一个从负无穷到正无穷范围内的连续值,但左边的值则属于[0,1],两边的值不匹配。

为了克服这一阻碍进行线性回归,统计学家想出了一种变换方法,即:将等式右边的值变换为[0,1]。最后,选择采用logistic函数进行变换。

logistic函数为:

它是一个取值范围为(0,1)的s型函数,可以将任意值映射到(0,1),并且具有无穷导数等优良的数学性质。

在变化以后,回归方程就变为:

这样,等式两边的取值范围就都处于0和1之间了!

再进行一下Logit变换,得到:

在上面这个公式里,可以将y看作y取值为1的时候的概率p(y=1),那么1-y便是y取值为0的时候的概率p(y=0)。

从而能够进一步得到:

处理变换到这里,我们就可以回到最初的思路,通过最小二乘法估计β的值了。

2

odds与OR的含义

Odds:称为暴露比值,也称为几率、比值、比数,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。用p表示事件发生的概率,则:odds = p/(1-p)。

OR:称作“优势比”(odds ratio),也称“比值比”,为实验组的事件发生几率(odds1)/对照组的事件发生几率(odds2),反映的是某种暴露与结局的关联强度。

3

怎么理解OR值

上面的描述在新手看来简直“不明觉厉”:什么优势?啥又是优势比?关联强度又是啥?

为了加深了解,让我们结合例子来细细体会。

假设一下,如果我们想要探讨熬夜是否会导致肥胖的发生,应该怎么办?

回忆一下我们初中学的做生物实验的思路,很容易便想到:找两组人,一组是肥胖人群,另一组则是不肥胖人群,然后,分别调查这两组人群哪些人熬夜、哪些人不熬夜。

如果我们调查得到的情况是下面这样的:

可以看到,肥胖组一共有40人,其中24人熬夜,16人不熬夜。我们就称“熬夜”是一种“暴露”。

不难看出,“暴露”指代的内容非常广泛。一般来说,有我们感兴趣的元素的研究对象就可以被称为“暴露组”;而没有这些因素的研究对象就可以被称为“非暴露组”。感兴趣的元素可以包括各种特征(性别、年龄、教育程度等)、某个特定行为(饮酒、运动、吸烟),或接触某个特定的物质(PM2.5等)。

至于“暴露与结局的关联强度”,在假设的例子当中,所谓的“结局”便是“是否肥胖”,也可以理解为“因变量Y”。

那“暴露比值”在假设的例子当中意味着什么呢?

其中,对于患有肥胖的对象,暴露比值为:熬夜的比例除以不熬夜的比例,即为:25/15 = 1.67;

同样,在不肥胖的人群中,也可以计算一个熬夜的比例除以不熬夜的比例,即为:19/21 = 0.90。

把这两个比例相除,就得到了熬夜与肥胖相关关系的OR值,即OR = 1.67/0.90= 1.86>1。

由此可以进行初步的推断:熬夜会增加肥胖的风险。

总的来说,当结果出现记为1,不出现记为0时,OR值的含义可以总结为:

OR = 1,暴露与结局之间没有相关性;

OR> 1,暴露可能会促进结局的出现;

OR<1,曝光会阻碍结局的出现。

而Logistic回归很重要的一点在于可以直接输出OR值,这一值甚至比直接的回归系数(β)还更有意义。

OR值与回归系数β的数量关系为:OR = eβ

免责声明:本站部份内容由优秀作者和原创用户编辑投稿,本站仅提供存储服务,不拥有所有权,不承担法律责任。若涉嫌侵权/违法的,请反馈,一经查实立刻删除内容。本文内容由快快网络小洁创作整理编辑!