搜索
写经验 领红包
 > 游戏

随机森林算法工作原理(随机森林算法原理简介)

导语:CGFT认证学习:随机森林算法及应用

随机森林指的是利用多棵树对样本进行训练并预测的一种分类器,该分类器最早由Leo Breiman和Adele Cutler提出,并被注册成了商标。

在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 而 是他们的商标。

这个术语是1995年由贝尔实验室的Tin Kam Ho(何天琴)所提出的随机决策森林(random decision forests)而来的。

这个方法则是结合 Breimans 的 (自举)想法和 Tin Kam Ho 的以建造决策树的集合。

学习算法如下:主要根据下列算法而建造每棵树:

1、 用N来表示训练用例(样本)的个数,M表示特征数目。

2、 输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M。

3、 从N个训练用例(样本)中以有放回抽样的方式,取样N次,形成一个训练集(即bootstrap自举取样),并用未抽到的用例(样本)作预测,评估其误差。

4、 对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征,计算其最佳的分裂方式。

5、 每棵树都会完整成长而不会剪枝,这有可能在剪完一棵正常树状分类器后会被采用)。

基于随机森林的非监督学习:

作为构建的一部分,随机森林预测器自然会导致观测值之间的不相似性度量。还可以定义未标记数据之间的随机森林差异度量:其思想是构造一个随机森林预测器,将“观测”数据与适当生成的合成数据区分开来。

观察到的数据是原始的未标记数据,合成数据是从参考分布中提取的。随机森林的不相似性度量之所以吸引人,是因为它能很好地处理混合变量类型,对输入变量的单调变换是不敏感的,而且在存在异常值的情况下度量结果依然可靠。

由于其固有变量的选择,随机森林不相似性很容易处理大量的半连续变量。

免责声明:本站部份内容由优秀作者和原创用户编辑投稿,本站仅提供存储服务,不拥有所有权,不承担法律责任。若涉嫌侵权/违法的,请反馈,一经查实立刻删除内容。本文内容由快快网络小思创作整理编辑!