图的向量化表示概述

图的向量化表示,意即通过多维向量空间中的一点来表示一个图的特征,方便使用机器学习的方法对其进行分类操作 。
首先讨论怎么从一副普通的图像中提取出特征图:
原图是(a),然后对其做碎片化,得到图(b),对原图做二值化得到图(c) , 图(b)和图(c)叠合得到图(d) 。对于图(d)做下列定义:
各个色块被定义为特征图的各个节点,节点编号集合是颜色集合{黑,蓝,棕,绿,灰,橙,粉,紫,红,白,黄};两个色块之间有公共边缘的就认为存在边,边的长度是公共边缘上像素点的个数,离散化表示为{短,中,长} 。

图的向量化表示概述

文章插图
在我们的化学式检索中,这项工作变得更加简单:每一个原子(原子团)代表着一个节点 , 节点的编号自然就是这个原子(原子团)的名称;每一个化学键就是一条边,边的编号集合为{单,双,三,……} 。至此,完成了特征图的提取 。
得到特征图之后 , 需要将其表示为一个特征向量,典型的做法是图指纹的方法 。
的方法
图的向量化表示概述

文章插图
给定一个集合H=〖{h_i}〗_(1≤i≤n) , 包含了n个图的“部分”,任意图g就被转换成为了n维向量空间中的一点:
g→(#(h_1,g) , #(h_2,g),……,#(h_n,g))
其中#(h_i,g)代表着每一个“部分”h_i在此图中出现的次数 。这一方法的要点在于选取合适的H集合 。在化学式检索工作中,可以考虑一些典型的官能团或特定结构来组成这个集合,不过这需要一定的化学研究 。
ofvia Label 的方法
【图的向量化表示概述】这个方法其实是方法的一个变式,减少了预操作 , 比较适合化学结构式检索来应用 。在此办法中 , 集合H由以下几个部分组成:所有节点,任意两个节点之间连一个编号为e_1的边,任意两个节点之间连一个编号为e_2的边……计算这些“部分”或者说是小结构在此图中出现的次数,由此得到一个向量 。此方法的好处在于,向量的维度分类前已经确定,不用随着研究目标的不同来改变集合H的形式,增加了特征提取的全面性 。