【Multiple Instance Learning多示例学习】多示例学习(- )是1997年被提出的 。其与监督学习、半监督学习和非监督学习有所不同 , 它是以多示例包(bag)为训练单元的学习问题 。
在多示例学习中 , 训练集由一组具有分类标签的多示例包(bag)组成 , 每个多包(bag)含有若干个没有分类标签的示例() 。如果多示例包(bag)至少含有一个正示例() , 则该包被标记为正类多示例包(正包) 。如果多示例包的所有示例都是负示例 , 则该包被标记为负类多示例包(负包) 。多示例学习的目的是 , 通过对具有分类标签的多示例包的学习 , 建立多示例分类器 , 并将该分类器应用于未知多示例包的预测 。
举例一:
很多传统的分类问题可以转化为多示例学习问题 。例如 , 在图像分类中 , 我们把含有“大象”的图像被分为正类 , 不含有“大象”的图像被分为负类 。在训练集中 , 假设60幅图像含有“大象” , 40幅图像不含有“大象” 。
图1:原图像
文章插图
(1)对于上图 , 在传统分类中 , 一幅图像可以转化为一个向量(示例) 。因此 , 数据集中有60个正类示例(图像)和40个负类示例(图像) 。每一个示例(图像)的label都是已知的 , 训练集给定的 。在60个正类示例和40个负类示例的基础上 , 建立分类器 , 区分正类示例和负类示例
(2)但是 , 一幅可能包含复杂的内容信息 , 譬如这幅画不仅含有“大象” , 还包含了天空、和草地等多个图像内容 。对于“大象”来说 , “天空”和“草地”可以被认为是噪声 , 这导致预测时分类精确度的降低 。
(3)因此如果把整幅图像看作单个向量 , 难以充分描述多个图像内容 。为此 , 研究者把图像按照不同内容区域进行分割 , 如下:
图2:分割为3个区域
文章插图
我们把图2看作一个多示例包bag , 1个分割区域看作一个示例 。由于图2含有3个分割区域 , 因此图2的多示例包含有3个示例 。每一个分割区域()可以转化为1个向量 。因此 , 图2的多示例包含有3个向量 , 这就把传统的图像分类转化为多示例学习问题 。
举例二:
知识图谱有信息抽取的人物 , 这里面包含命名实体抽取 , 关系抽取 , 属性抽取 。其中实体关系用的较多的方法是远程监督 , 即给出文本 , 其中包含两个实体 。例如“姚明的妻子是叶莉 , 她的身高是189cm” 。从上述文本我们可以得到 , 姚明-妻子-叶莉、叶莉-身高-189cm 两组spo三元组 。但我们的真实想要的妻子这一关系 , 故叶莉-身高-189cm属于噪音数据 。
我们用大量包含姚明-叶莉的文本进行训练 , 当然这些文本中姚明和妻子共现 , 但不一定是妻子 , 也可能是上司等关系 。总之这条文本包含一个姚明-妻子-叶莉 , 我们就认为这条文本 , 是一个正类多示例包(bag) 。通过多条这样的多事例包的训练 , 我们可以得到能识别妻子关系的model 。之后用该model , 预测某文本 , 是否为妻子关系 。
关系抽取远程监督 , 可以参考链接 。
- 【一起入门MachineLearning】中科院机器学习-期末题库
- Representation Learning 表示学习 Part1
- Found multiple CRI endpoints on the host