【2.1.1】--闵氏距离(闵可夫斯基距离,minkowski-distance)

闵氏距离不是一种距离,而是一组距离的定义,是对多个距离度量公式的概括性的表述。是欧氏空间中的一种测度,被看做是欧氏距离的一种推广,欧氏距离是闵可夫斯基距离的一种特殊情况。

闵氏空间指狭义相对论中由一个时间维和三个空间维组成的时空,为俄裔德国数学家闵可夫斯基(H.Minkowski,1864-1909)最先表述。他的平坦空间(即假设没有重力,曲率为零的空间)的概念以及表示为特殊距离量的几何学是与狭义相对论的要求相一致的。闵可夫斯基空间不同于牛顿力学的平坦空间。

一个小故事: 阿尔伯特·爱因斯坦在瑞士苏黎世联邦科技大学(Eidgen?ssische Technische Hochschule, ETH; Swiss Federal Institute of Technology)时期的数学老师赫尔曼·闵可夫斯基在爱因斯坦提出狭义相对论之后,于1907年将爱因斯坦与亨德里克·洛仑兹的理论结果重新表述成(3+1)维的时空,其中光速在各个惯性参考系皆为定值,这样的时空即以其为名,称为闵可夫斯基时空,或称闵可夫斯基空间。

以俄罗斯数学家闵可夫斯基命名的距离;是欧式距离的推广,p=2时等价于欧氏距离,和p-范数等值

两个n维变量a(x1,x2,…,xn)与 b(y1,y2,…,yn)间的闵可夫斯基距离定义为:

$$ d = \sqrt[p]{\sum\limits_{i=1}^{n} |x_{i} -y_{i}|^{p} }$$

其中p是一个变参数。

  • 当p=1时,就是曼哈顿距离
  • 闵可夫斯基距离当p=2时,就是欧氏距离
  • 当p→∞时,就是切比雪夫距离

根据变参数的不同,闵氏距离可以表示一类的距离。

二、优缺点

闵氏距离,包括曼哈顿距离、欧氏距离和切比雪夫距离都存在明显的缺点。

e.g. 二维样本(身高[单位:cm],体重[单位:kg]),现有三个样本:a(180,50),b(190,50),c(180,60)。那么a与b的闵氏距离(无论是曼哈顿距离、欧氏距离或切比雪夫距离)等于a与c的闵氏距离。但实际上身高的10cm并不能和体重的10kg划等号。

闵氏距离的缺点:

  • 闵氏距离与特征参数的量纲有关,有不同量纲的特征参数的闵氏距离常常是无意义的。
  • 闵氏距离没有考虑特征参数间的相关性,而马哈拉诺比斯距离解决了这个问题。
  • 闵可夫斯基距离在面对离散数据集的时候则不适用,而对于有序数列数据集可用。

三、讨论

我们常常将属性划分为“连续属性”(continuous attribute)和“离散属性”(categorical attribute),前者在定义域上有无穷多个可能的取值,后者在定义域上式有限个取值。然而,在讨论距离计算的时候,属性上是否定义“序”关系更为重要。例如,定义域在{1,2,3}的离散属性和连续属性的性质更为接近一些,能直接在属性值上计算距离:“1”和“2”比较接近、与“3”比较远,这样的属性称为“有序属性”(ordinal attribute);而定义为{火车、飞机、船}这样的离散属性则不能直接在属性值上计算距离,称为“无序属性”(non-ordinal attribute)。在这里,闵可夫斯基距离可用于有序距离,

  • 连续属性亦成为“数值属性”(numerical attribute)
  • 离散属性亦成为“列名属性”(nominal attribute)

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn