梁耀荣
Menu
Home
GitHub
Blog
常用距离总结
这篇文章会对常用的距离进行简单总结.将会涉及到:
欧氏距离
马氏距离
余弦相似度
皮尔逊相关系数(标准化后的余弦相似度)
Spearmana相关系数
切比雪夫距离
曼哈顿距离
闵科夫斯基距离(闵氏距离)
Jaccard相似度
卡方统计量
欧氏距离
定义:
特点:
同心圆型的点不能正确分类;个别取值较大的变量会对结果产生重要影响,量纲对其有较大影响。可通过先对特征进行归一化或标准化解决.
马氏距离
定义:
特点:
不受量纲影响;排除了变量之间相关性干扰.同样的样本在不同的总体中,其马氏距离通常是不同的
理解:
马氏距离就是对数据进行旋转后计算加权欧氏距离;数据旋转的理解与PCA中的旋转一致.具体推导可以参考这篇博文
传送门
余弦相似度
定义:
特点:
余弦相似度在[-1,1]之间.即有比较标准;对数据的刻度不敏感,如(3,5),(6,10)分别与(1,1)的余弦相似度是一致的,但欧氏距离是不一致的.
理解:
以两个向量的夹角余弦衡量向量间的距离,从
得到
(Pearson)相关系数(标准化后的余弦相似度)
定义:
特点:
刻画向量间线性相关关系
理解:
就是平时统计常用的相关系数
Spearman等级(秩)相关系数
定义:
对数据进行排序,若相同则对取平均序号.然后计算其序号的相关系数
特点:
解决非线性相关问题
切比雪夫距离
定义:
理解:
切比雪夫距离又称棋盘距离。国际象棋中王和后走的就是切比雪夫距离。
曼哈顿距离(绝对值距离)
定义:
理解:
曼哈顿距离又称出租车距离,假设街区的道路都是水平或竖直的,那么出租车来回两点间的距离显然不能用欧式距离衡量。此时出租车走的距离就是曼哈顿距离。
闵科夫斯基距离(闵氏距离)
定义:
特点:
与欧氏距离类似, 量纲对结果影响很大
理解:
当k=1时,为曼哈顿距离;当k=2时,为欧式距离;当k=无穷时,为切比雪夫距离
Jaccard相似度
定义:
特点:
衡量两集合相似程度
理解:
可用于文本识别中,把文本当作一个大集合,里面有很多不同字段(如:”I’m handsome”可分为”I’”,”m h”,”ands”,”ome”).若两文本集合的Jaccard相似度高,则两个文本很可能相似。
卡方统计量
定义:
特点:
适用于离散型变量.
理解:
卡方统计量用于衡量两变量是否服从同一分布.若统计量越大,则考虑两变量越独立.
E-mail: liangyaorong1995@outlook.com
▲