深度学习UFLDL教程翻译之自我学习( 二 )


四、无监督特征学习的术语
有两种常见的无监督特征学习设定,取决于你有什么类型的无标记数据 。更一般和强大的设定是自我学习设定,它并不认为你的无标记数据xu必须和你的有标记数据xl是一样的分布 。更限制性的设定是无标记数据必须和有标记数据来自同一个分布,有时候称为半监督学习设定 。这个区别最好能通过一个例子解释,就是接下来我们介绍的 。
假设你的目标是一个计算机视觉任务,你想要将小车和摩托车的图像区分开来;那么,你训练集中的每个有标记样本是小车或者摩托车的图像 。我们从哪可以得到大量无标记的数据呢?最简单的方法是得到一些随机的图片集,也许从因特网下载 。然后我们可以在这个大的图片集中训练自动编码器,并得到有用的特征 。由于这里无标记数据与有标记数据是来自不同的分布,(即,可能有些图像包含小车和摩托车,但不是每一张下载的图像都是小车或摩托车),我们称之为自我学习 。
【深度学习UFLDL教程翻译之自我学习】相反,如果我们碰巧有大量的无标记图像,而且不是小车就是摩托车,不过数据都没有标记的时候(所以你不知道哪些是小车哪些是摩托车),那么我们可以用这些形式的数据学习特征 。这个设定——每个无标记样本和每个有标记样本来自同种分布——有时候称为半监督设定 。特别地,我们经常没有这些无标记数据(你在哪可以得到不是小车就是摩托车,只是没有标记的图像的数据库呢?),因此从无标记数据中学习特征的内容中,自我学习的设定更广泛应用 。