Representation Learning 表示学习 Part1( 三 )


这就是无监督视觉表示学习通过上下文预测的基本概念 。注意,这是一种自我监督的学习方法,也就是说,它不需要人工标签就可以学习,因此可以处理大量的未标记数据 。
“表示空间”在机器学习中通常指的是模型对输入数据的内部表示 。在CNN中,卷积层和池化层(如果有的话)处理输入图像,并生成一个复杂的特征图 。这个特征图就是输入图像在模型中的表示 。这些表示编码了图像的很多信息,如颜色、纹理、形状等 。
在无监督视觉表示学习中,模型的目标就是找到一种表示方法,使得这种表示对于预测任务(如上下文预测)最有帮助 。在这种情况下,我们希望模型的表示空间可以捕捉到图像中的重要特征和结构 。
以CNN为例,比如说我们用上下文预测任务来训练一个CNN 。在训练过程中,CNN的卷积层会学习到如何提取图像中的有用特征,这些特征会被编码在特征图(即表示空间)中 。在经过训练之后,CNN应该能够生成对于上下文预测任务有用的表示 。
这就是无监督视觉表示学习和表示空间之间的关系 。在无监督学习中,我们的目标就是找到一种能够对预测任务有用的表示方法 。
表示空间是可以量化的 。在卷积神经网络(CNN)中,表示空间通常指的是网络中一层或多层的输出,这些输出是一种对原始输入(如图像)的编码或表示 。这些表示通常是具有许多维度的数值向量,因此是可以量化的 。
具体到一个新的图像,表示空间是这样工作的:
首先,新的图像被输入到经过训练的CNN中 。CNN的卷积层会开始处理图像,每一层都会提取出图像的一些特征 。早期的层可能会提取出一些基本的特征,如边缘和颜色,而更深的层可能会提取出更复杂的特征,如对象的部分或整体 。这些提取出的特征就构成了新图像在模型中的表示,也就是在“表示空间”中的点 。这些表示通常会被送入全连接层或其他类型的层进行进一步处理,以完成最终的预测任务(如分类) 。
举个例子,假设你有一个用于区分猫和狗的CNN 。你给它输入一张新的猫的图片 。CNN的卷积层会提取出图片中的各种特征,并生成一个表示 。这个表示捕捉了图片中的很多关于猫的信息,如它的形状、颜色、纹理等 。然后,这个表示被送入全连接层,全连接层根据这个表示预测出“猫”的标签 。这就是表示空间在处理新图像时的作用 。
首先,图像被随机旋转一个角度(例如90°、180°、270°),然后输入到神经网络(例如)中,模型的任务就是预测这个旋转角度 。这个过程可以通过分类损失( Loss)进行优化,因为这实际上是一个4类分类问题(假设我们只考虑0°、90°、180°、270°这四种旋转) 。
优点:
缺点:
需要注意的是,虽然这种方法有其局限性,但是它提供了一种简单且有效的方式来在没有标签的情况下学习视觉表示,这对于大规模的未标记数据集来说非常有用 。
那前面的上下文预测的标签是从哪里来的

Representation Learning  表示学习 Part1

文章插图
在这种方法中,模型的目标是估计从一幅图像变换到另一幅图像的过程 。假设我们有两幅图像x和t(x),其中t(x)是x经过某种变换(如旋转、缩放等)后的图像 。模型会首先提取这两幅图像的特征,记为E(x)和E(t(x)),然后预测从E(x)到E(t(x))的变换 。
缺点:
重构,破坏原来的一部分,重新去学习预测
一种基于重构的自我监督学习方法,即使用去噪自编码器( ) 。去噪自编码器是一种特殊的自编码器,它接受一种带有噪声的输入信号,然后试图重构原始的、未被噪声污染的信号 。