Representation Learning 表示学习 Part1( 六 )


接下来,我们使用神经网络生成预测的树木区域的表示,然后和实际的树木区域的表示进行比较,看预测的表示和实际的表示是否接近 。同时,我们还会从其他图像(比如说城市风景的图像,上面也可能是天空)中取出一部分作为负样本,看预测的表示和这些负样本是否足够远 。
通过这样的训练,神经网络将学习到如何根据一个区域(比如天空)去预测下面的区域(比如树木) 。这样,即使在测试阶段,当神经网络只看到天空部分,也可能准确地预测出下面可能是树木,而不是其他的物体,比如建筑物或者海洋 。
CPC 的优点包括:
它是一个通用的框架,可以应用于图像、视频、音频、自然语言处理等多种领域 。它需要保留细粒度的信息,这有助于更好地理解数据的特征 。它通过上下文预测,可以帮助网络学习到物体的各个部分 。
然而,CPC 也存在一些缺点:
它是基于范例的,也就是说,同一类别或者同一实例的图像都会被视为负样本 。这可能会影响模型的性能 。训练-评估间隙:CPC 在训练时使用的是图像的小块区域(),而在评估时使用的是整张图像,这可能导致训练和评估之间存在一定的差距 。CPC 假设训练图像都是以规范化的角度拍摄的(并且这样的规范化角度存在),这可能会限制它的适用范围 。由于需要将图像分成许多小块,所以CPC的训练过程可能比较慢 。timemove
“观察物体移动”是一种自监督学习的方法,它的主要目标是预测哪些像素会移动 。这个过程往往在我们可以将物体分割出来之后变得相对容易
具体来说,网络将从图像中提取特征,并试图预测哪些像素在下一帧图像中会移动 。这个预测是以像素为单位进行的,所以这种方法需要像素级的标签 。这些标签通常由一个外部的运动分割算法生成 。
"观察物体移动"的优点包括:
自发的行为:网络可能会自发地学习到物体分割的能力(分离出这个物体,理解这个物体的概念),因为知道哪些像素会移动对于理解物体的边界是非常有帮助的 。没有训练-评估间隙:在训练和评估阶段,网络都是在进行像素级的预测,一直在训练同时评估,所以不存在训练-评估间隙 。
然而,这种方法也有一些缺点:
“盲点”:对于静止不动的物体,这种方法可能无法正确处理,因为它主要关注的是会移动的像素 。可能会过度关注大的显眼物体:大的、显眼的物体往往会产生更多的移动像素,所以网络可能会过度关注这些物体,而忽视了小的或者不太显眼的物体 。依赖于外部的运动分割算法:生成像素级标签需要一个运动分割算法,这就导致了这种方法的性能很大程度上依赖于运动分割算法的性能 。不能扩展到时间网络:在处理视频数据时,网络需要预测每一帧图像的移动像素,但如果预测的是下一帧图像,那么这个任务就变得很简单,因为下一帧图像大部分内容和当前帧图像是一样的 。by
"颜色追踪"是一种自监督学习的方法,其主要目标是通过早期帧的颜色信息来给新的帧进行上色 。如果所有的物体都能被追踪,那么这个任务就变得相对容易 。
具体来说,网络需要从参考帧(已经上色的帧)中提取颜色信息,然后将这些颜色信息用于对输入帧(没有上色的帧)进行上色 。这就相当于是在追踪颜色信息在视频中的移动 。
"颜色追踪"的优点包括:
自发的行为:网络可能会自发地学习到跟踪、匹配、光流和分割等技术,因为这些技术对于正确地从参考帧中提取颜色信息并将其应用到输入帧上是非常有帮助的 。