> 运动
连续特征离散化作用(数学中的连续型的问题离散化后才能被计算机处理)
机器学习特征的连续化与离散化
上一篇文章中【常用机器学习算法总结-LR和GBDT】,介绍到LR、GBDT分别适合处理离散值和连续值。但是在平常的机器学习项目中,我们能够使用的样本数据中,往往即包含连续特征(如用户年龄、用户资产等)也包含离散特征(如用户住址、产品分类等)。所以我们就需要对样本的特征做转化后,再进行建模,这样才有可能得到比较好的效果。
那么这篇文章我们就介绍一下如何把训练样本中的连续值转化为离散值以及如何把离散值转化为连续值。
1、离散特征连续化
离散特征连续化的方法有很多,我们这里仅介绍一种高效、简洁的方法。
将训练样本按照某种规则排序(比如按时间排序),对于某条样本的某个特征,统计在此样本之前出现此特征的样本的个数、正样本个数以及正样本占负样本的比例等信息,作为该样本该特征的连续化特征。
2、连续特征离散化
离散化是机器学习中非常常见的一种特征处理手段,一个最直接的方案是对连续值特征等距分桶,但实验发现该方法对桶数十分敏感,桶的数量不同,导致算法AUC的变化也会非常大。 后来有人提出了分桶能随数据的变化而变化的自适应分桶,如 BayesianBlock、Knuth’s rule等。但是需要注意的是自适应分桶由于复杂度较高,因此计算上会慢一些。
温馨提示:通过以上关于机器学习特征的连续化与离散化内容介绍后,相信大家有新的了解,更希望可以对你有所帮助。