深入理解欧氏距离和马氏距离的关系(欧氏距离与马氏距离的优缺点是什么)
导语:深入理解欧氏距离和马氏距离
机器学习模型中常会涉及到计算两个样本间的距离,常用的计算距离标准有欧氏距离和马氏距离。
(1) 欧氏距离局限性:
(a) 如果各变量的单位不全相同,则上述欧氏距离是没有意义的。例如,比如第一个分量表示身高,第二个分量表示体重,…,最后一个分量表示年龄。比如第二个分量单位使用公斤还是克所起作用完全不一样,求出的欧式距离没有实际意义。
(b) 即使单位全相同,但如果各分量的变异性差异很大,则变异性大的分量在欧氏距离的平方和中起着决定性的作用,而变异性小的分量却几乎不起什么作用。
比如下面是各国家和地区男子径赛记录的数据:
首先把秒和分统一为秒或分单位,再计算国家之间的平方欧氏距离时,直观上算出的距离值主要取决于马拉松这个变量,因为马拉松数据特别巨大,这样国家之间算出的差异主要取决于马拉松这个成绩,显然是不合理的。
一个直观的想法是在计算平方欧氏距离前,先对这8个变量做一下标准化的变换,因为式中平方和中每一项都是随机变量,因而应在平均的意义上来看每一项所起作用大小,即其数据期望,其数据期望等价为方差,因此在平方和中每一项所起的平均作用大小取决于其方差,方差越大其所起的平均作用越大。
如果对各分量都作标准化变换,则各分量方差同为1且均值为0,于是:平方和中各分量所起的平均作用都一样,如果各分量的单位不全相同,则标准化可不受单位不同的影响。标准化过程如下:
注:对于对角矩阵,所有基向量都是特征向量,对角元素就是所属的特征值。
式可得特征值和特征向量如下:
在实际应用中,为了消除单位的影响和均等地对待每一分量,我们常须先对各分量作标准化变换,然后再计算欧氏距离。例如判断图中两个外点哪个更离群?上边点
补充1:协方差矩阵、相关矩阵和标准差矩阵知识
对协方差矩阵进行对角化这个过程可以将相关的随机变量转变为不相关的,而且如果是高斯的情况,还可以将相关的随机变量转换为独立的。
注:两个独立的随机向量必然不相关,但两个不相关的随机向量未必独立。
补充2:线性变换、特征向量和特征值
线性变换的两种理解方式
将基向量变化后的位置视为矩阵的列,也就是新的基向量【依赖于坐标系】利用特征向量和特征值理解线性变换,不依赖于坐标系的选择。
特征值与特征向量
特征向量:一个向量经过线性变换,仍留在它所张成的空间中
特征值:描述特征向量经过线性变换后的缩放程度
用线性无关的特征向量来完成这件事情的意义在于:最终变换的矩阵必然是对角矩阵,且对角元就是对应的特征值。这是因为它处坐标系的基向量在变换中仅仅进行了缩放。
(2) 马氏距离
欧氏距离经变量的标准化之后能够消除各变量的单位或方差差异的影响,但不能消除变量之间相关性的影响。
参考文献
[1] 应用多元统计分析王学民著
[2] 实用多元统计分析陆璇和叶俊译
[3] 概率、统计与随机过程罗鹏飞译
[4]Pattern Recognition and Machine Learning(PRML)author:Christopher M. Bishop
免责声明:本站部份内容由优秀作者和原创用户编辑投稿,本站仅提供存储服务,不拥有所有权,不承担法律责任。若涉嫌侵权/违法的,请反馈,一经查实立刻删除内容。本文内容由快快网络小纳创作整理编辑!