目标代码是机器码吗(目标编码 特征工程)
机器学习中的目标编码
目标编码(Target Encoding)也被称为似然编码(likelihood encoding)或平均数编码(mean encoding)。它是从现有特征和目标变量中创建一个新特征。
让我们通过几个小例子来理解这个概念。
示例1:二元分类任务我们有一个名为data_df的Pandas DataFrame,它包含如下数据。
特征2是我们想要在目标的帮助下进行编码的分类变量。
因为,如果特性2的值是“A”,我们在相应的目标列中有4个1和1个0。值“A”的平均数编码为4/5 = 0.8。
类似地,特征2为“B”的平均数编码是2/3 = 0.667。
我们可以用下面的代码为data_df中的数据创建平均数编码
mean_encoding = data_df.groupby(['Feature-2']).agg({'Target':['mean']}).reset_index()
data_df = data_df.merge(mean_encoding,on='Feature-2',how='left')
这里(Target,mean)是新编码的特征
示例2:回归任务让我们看一下Target是一个连续值的例子。我们的新DataFrame数据如下:
与第一个示例相同,Feature-2是我们想要在Target的帮助下编码的分类变量。
由于Target是连续的,因此我们可以更灵活地生成新的目标编码功能。例如,我们可以采用均值,模式,标准差或百分位数来创建新特征。
让我们使用Feature-2中每个值的Target值的标准偏差来创建一个新特征。
std_encoding=data.groupby(['Feature-2']).agg({'Target':['std']}).reset_index()
data_df = data_df.merge(std_encoding,on='Feature-2',how='left')
这里产生的新特征是(Target,std)
这种特征编码的思想也可以扩展到多类分类。特别地,对于基于树的方法,该方法似乎最有效,因为数据获得关于编码的分类特征的其他值的结构的附加信息。
注意事项在使用这些编码技术时,有一些事情需要注意,因为我们不希望目标变量泄漏出现在新的编码特征中。
如果在训练和验证数据分离之前执行了目标编码,那么它可能仅仅是与验证数据相匹配,结果可能不可靠。因此,应该在训练和验证数据分离后进行编码。这种方法在特性可能具有数据中罕见的值的情况下可能会失败。我们可以使用一些正则化方法来克服目标编码中的缺陷。
通过使用目标编码,我们可以超越one-hot编码,将分类变量输入到机器学习模型中。
温馨提示:通过以上关于机器学习中的目标编码内容介绍后,相信大家有新的了解,更希望可以对你有所帮助。