3、距离度量( 三 )


在机器学习中有许多距离度量方式,这篇文章很好的总结了各自距离度量方法 。在目前已经阅读的论文中,最常见的距离公式为 与。前者用于度量包间的距离,后者用于度量实例间的距离 。在中使用了。
算法Graph
度量方式
豪斯多夫
欧氏
豪斯多夫
豪斯多夫
高斯
欧式距离计算公式:
d ( x , y ) = ∑ i = 1 n ( x i ? y i ) 2 d(x,y)=\sqrt{\sum_{i=1}^{n}(x_{i}-y_{i})^{2}} d(x,y)=i=1∑n?(xi??yi?)2?
豪斯多夫距离是基于欧式距离的,用于描述两个集合之间的相似程度,因此也适用于度量多示例学习中包间相似度 。又分为:最小距离、平均距离、最大距离 。选用哪一种通常是通过做实验后,找出性能最佳的一个作为最终的算法距离度量方式 。
由于不同数据集包中的实例分布的不同,需要选择不同的距离度量方式 。一般分为:1)数据相关型;2)数据不相关型 。
1)数据相关型:指的是计算距离时需要依据其他对象来计算,公式一般为 d i s t a n c e ( A , B , 媒介 ) (A,B,媒介) (A,B,媒介)
2)数据不相关型:指的是直接计算距离而不需要其他对象作为媒介,如豪斯多夫距离,公式一般为 d i s t a n c e ( A , B ) (A, B) (A,B)
由于距离能够计算包与包的特征值之间的关系,而包的特征值往往能够代表这个包的类别、性质 。对于不同的数据分布 。这一切都与数据分布有关 。可以通过对不同的算法试验不同的距离度量方式,找出最适合算法的距离 。