极大似然估计方法的原理是什么(极大似然估计法公式)

导语：机器学习中的数学原理——极大似然估计

在做数据挖掘建模型的时候，比如在逻辑回归中，我们常常使用极大似然估计、梯度下降法来求参数，那么到底极大似然估计是什么？在逻辑回归中是怎么推导得来的呢？

什么是极大似然估计：

极大似然估计，在大学数学系专业《概率论与数理统计》中出现的，是概率论在统计学的应用，它是参数估计的方法之一。极大似然估计是建立在这样的思想上：随机样本满足某种概率分布，但是其中具体的参数不清楚，假设这个参数能使这个样本出现的概率最大，所以就把这个参数作为估计的真实值。

在一个罐中随机拿去小球，假如在一百次记录中，有七十次是白球，那么我们直觉会说罐中白球所占的比例最有可能是70%。

其实这直觉的背后，我们就利用了极大似然估计

假设罐中白球的比例是p，那么红球的比例就是1−p。又因为每抽一个球后，又将其放回摇匀，所以每次抽出来的球服从独立同分布

在一百次抽样中，七十次是白球的概率是

其实还应该乘以从100中随机抽取70白球的组合C(100,70)

即独立发生的概率相乘，那么要使他最大，则P值应该为多少呢，求导即可得P=0.7

逻辑回归中的极大似然估计

1，似然函数

我们知道，逻辑回归的成本函数不能像一般的回归模型那样，直接是拟合值与真实值的误差的平方。

我们假设逻辑回归预测函数是：y=1时，

h(x)就是逻辑回归模型的函数式，默认是y=1

，则y=0时，

我们可以这样写每个样本随机出现的概率函数：

刚好满足，当y=1时

y=0时：

则样本集概率：

每个样本独立同分布

这也是我们所说的似然函数

2，对数似然函数

我们对似然函数求极大值，取导数的时候太复杂了

我们对此两边取对数，变成连加的方式，这样求最大值就容易许多，可以得到对数似然函数：

取导把连乘变成加和的形式，更容易求极值

对样本观测值

，选择参数θ使得

求使得该样本概率最大的θ值

则

称为参数 θ的极大似然估计值，

注：我们可以取对数似然函数的负值作为逻辑回归的代价函数，再用梯度下降法求取模型参数

哎，数学公式太难写了，手打的太累，只好去网上借些图了，伤不起啊！

本文内容由小樊整理编辑！