3、距离度量( 二 )


2、嵌入 · Bamic
通过Bamic算法得到k个簇与中心后,通过计算N个包与k个中心的距离,将每个包映射为k维向量,最后再通过预测算法对嵌入后的向量进行处理 。
由于每个中心都能够代表一种特征,因此计算每个包与中心的距离就能够体现每个包的所属特征,就能够对该包的向量进行预测 。
【3、距离度量】· SMDP
通过DP聚类得到每个包的以及它们的距离后,通过计算每个包到 n c n_{c} nc?个中心的距离,映射为 n c n_{c} nc?维特征向量。最后再通过预测算法对嵌入后向量进行分类处理 。
这里的嵌入方式与Bamic类似 。
· MIDIE
MIDIE是通过差值来体现每个包的特征 。若差值较小,则说明该实例与其代表实例差别不大,则为同一类别的可能性越大;反之则越小 。计算每个包中的实例与其对应的实例代表作差值处理,并将每个包中差值处理后的实例叠加,得到这个包的映射向量 。
· ELDB
论文阅读在这一篇,代码在这一篇 。
算法的映射方式为:计算每个包 B i B_{i} Bi?与判别包集合 T e \{T}_{e} Te?中之间的平均豪斯多夫距离来度量关联性:
f b ( B i , T e ) ? b i = [ b i ζ 1 , . . . , b i ζ ψ ] f_{b}(\ B_{i},\{T}_{e})\ \ b_{i}=[b_{i\zeta_{1}},...,b_{i\zeta_{\psi }}] fb?(Bi?,Te?)?bi?=[biζ1??,...,biζψ??]
其中,b i k = ∣ ∣ x i ˉ ? x k ˉ ∣ ∣ b_{ik}=||\bar{\{\{x}}_{i} }-\bar{\{\{x} }_{k}} || bik?=∣∣xi?ˉ??xk?ˉ?∣∣,x i ˉ = ∑ j = 1 n i x i j / n i \bar{x_{i}}=\sum_{j=1}^{n_{i}}x_{ij}/n_{i} xi?ˉ?=∑j=1ni??xij?/ni? 。
判别包集合就是包集合中最具区分度的包 ,也就是代表包集合,与其他包差别大的包 。通过映射,能够得到每个包与代表包之间的差别,映射为向量 b i \ b_{i} bi? 。
此外,ELDB拥有判别性分析技术,即使得 T d \{T}_{d} Td?中任意两个不同标签的包之间距离累积之和最大;任意两个相同标签的包之间距离累积之和最小:
max ? T e ? T d ? T J ( T d , T e ) = 1 2 ∑ B ξ i , B ξ j ∈ T d d i j δ i j \max_{\{T} _{e}\ \{T} _{d}\ \{T}}\{J}(\{T}_{d},\{T}_{e})=\frac{1}{2} \sum_{B_{\xi _{i}},B_{\xi _{j}}∈\{T}_{d}}^{} d_{ij}\delta _{ij} Te??Td??Tmax?J(Td?,Te?)=21?Bξi??,Bξj??∈Td?∑?dij?δij?
其中,d i j d_{ij} dij?为包间距离,δ i j \delta _{ij} δij?为bag-link矩阵中对应位置的值 。若两个包对应标签相同,则为 λ \ λ,否则为 ? λ -\ ?λ 。意味着标签不同的包之间区别越大,这个矩阵也能够凸显包与包之间的区别:
δ i j = { λ i j , y ξ i ≠ y ξ j ? λ i j , y ξ i = y ξ j \delta _{ij}=\begin{cases} \ _{ij}, y_{\xi _{i}}\ne y_{\xi _{j}}\\ -\ _{ij}, y_{\xi _{i}}= y_{\xi _{j}} \end{cases} δij?={λij?,yξi??=yξj???λij?,yξi??=yξj???
·
论文阅读在这一篇 。提供了一种全新的思路,将包映射为一个 :若包内实例间距大于阈值,矩阵对应位置的值置为1,否则为0 。这也是MIDIE算法在衡量实例关联性时的做法 。
映射部分,设计了一个Graph 来度量包与包之间的相似性(关联性) 。计算每一个包与其他包之间的相似性并映射为向量 。该方法依然离不开距离度量,因为核函数中处理了 ,而 中数据是通过距离计算得到的 。
3、距离度量
在多示例学习中,常通过距离来衡量相似性,计算包与包、实例与实例、包与实例的距离 。但距离函数又不等同于相似度函数 。
所以,要度量包间相似度,距离度量是关键一步 。距离越近,两个包就越相似 。正如疫情期间,那些接触过患者的人往往患病几率就愈大 。常通过 d = 1 ? s d=1-s d=1?s、 d = ? l n ( s ) d=-ln(s) d=?ln(s)等来将距离转换为相似度 。因为距离 s s s越小,相似度 s s s就越大,代表越相似 。