极大似然估计方法的原理是什么(极大似然估计法公式)
导语:机器学习中的数学原理——极大似然估计
在做数据挖掘建模型的时候,比如在逻辑回归中,我们常常使用极大似然估计、梯度下降法来求参数,那么到底极大似然估计是什么?在逻辑回归中是怎么推导得来的呢?
什么是极大似然估计:极大似然估计,在大学数学系专业《概率论与数理统计》中出现的,是概率论在统计学的应用,它是参数估计的方法之一。极大似然估计是建立在这样的思想上:随机样本满足某种概率分布,但是其中具体的参数不清楚,假设这个参数能使这个样本出现的概率最大,所以就把这个参数作为估计的真实值。
在一个罐中随机拿去小球,假如在一百次记录中,有七十次是白球,那么我们直觉会说罐中白球所占的比例最有可能是70%。
其实这直觉的背后,我们就利用了极大似然估计
假设罐中白球的比例是p,那么红球的比例就是1−p。又因为每抽一个球后,又将其放回摇匀,所以每次抽出来的球服从独立同分布
在一百次抽样中,七十次是白球的概率是
其实还应该乘以从100中随机抽取70白球的组合C(100,70)
即独立发生的概率相乘,那么要使他最大,则P值应该为多少呢,求导即可得P=0.7逻辑回归中的极大似然估计
1,似然函数
我们知道,逻辑回归的成本函数不能像一般的回归模型那样,直接是拟合值与真实值的误差的平方。
我们假设逻辑回归预测函数是:y=1时,
h(x)就是逻辑回归模型的函数式,默认是y=1
,则y=0时,
我们可以这样写每个样本随机出现的概率函数:
刚好满足,当y=1时
y=0时:
则样本集概率:
每个样本独立同分布
这也是我们所说的似然函数
2,对数似然函数
我们对似然函数求极大值,取导数的时候太复杂了
我们对此两边取对数,变成连加的方式,这样求最大值就容易许多,可以得到对数似然函数:
取导把连乘变成加和的形式,更容易求极值
对样本观测值
,选择参数θ使得
求使得该样本概率最大的θ值
则
称为参数 θ的极大似然估计值,
注:我们可以取对数似然函数的负值作为逻辑回归的代价函数,再用梯度下降法求取模型参数
哎,数学公式太难写了,手打的太累,只好去网上借些图了,伤不起啊!
本文内容由小樊整理编辑!