Towards OpenWorld Recognition

,Boult
ofat
0.摘要
随着计算机技术的发展,丰富的分类模型和高计算能力的视觉识别系统得到了广泛的应用 。在现实世界中的识别提出了在受控的实验室环境中不明显的多重挑战 。数据集是动态的,必须不断地检测并添加新的类别 。在预测时,一个训练有素的系统必须处理无数看不见的类别 。操作系统需要最少的停机时间,即使是学习 。为了处理这些操作问题,我们提出了开放世界识别的问题并对其进行了正式定义 。证明了线性变换特征空间中距离单调递减函数的阈值和可以平衡开放空间风险和经验风险(核心) 。我们的理论扩展了现有的开放世界识别算法 。我们提出了一个评估开放世界识别系统的协议 。本文提出了最近非离群值(NNO)算法,该算法能有效地改进模型,在检测离群值和管理开放空间风险的同时不断增加对象类别 。(意义)我们在数据集上进行了1.2万多幅图像的实验,以验证我们的方法在大规模视觉识别任务中的有效性 。NNO始终如一地在开放世界识别中产生优异的结果 。
1.引言
在过去的十年中,用于构建和评估视觉识别系统的数据集在大小和变化上都有所增加 。数据集的规模从几百张图片增加到数百万张图片,数据集中的类别数量从几十个类别增加到上千个类别 。随着数据集的发展,丰富的分类模型的共同进化导致了许多商业应用[10,46,33] 。在将识别系统从受控的实验室环境移植到真实世界的过程中,会遇到许多操作上的挑战 。开放世界中的识别系统必须不断更新附加的对象类别,对看不见的类别保持鲁棒性,并且有最小的停机时间 。(目标)尽管世界具有明显的动态性和开放性,但绝大多数识别系统对问题采用静态和封闭的世界模型,其中所有类别都是先验已知的 。为了解决这些可操作性问题,本文对开放世界识别问题进行了形式化和步骤介绍 。问题的关键步骤如图1所示 。
在开放世界识别中,系统必须能够识别对象并将其与已知类相关联,同时还能够将类标记为未知 。然后必须收集并标记这些新的未知信息(例如由人类) 。当有足够多的标记未知数用于新类学习时,系统必须逐步学习和扩展多类分类器,从而使系统知道每个新类 。开放世界识别不仅仅是对未知类的健壮性,而是向在开放世界中自我调整和学习的可扩展系统发展 。问题=开放集识别(已知类识别+未知类识别)+未知类标记+增量学习
正如[39]所指出的,当一个识别系统经过训练并可操作时,在无数未知对象的场景中,已知对象是有限集的,标记新的、新的或未知的组合和构型总是一个有效的结果 。封闭世界假设在当今视觉系统中占主导地位的一个原因是,匹配、学习和分类工具已经形式化为从一个封闭集合中选择最有可能的类 。最近的研究,[39,38,16],将学习识别重新形式化为开放集识别 。但是,这种方法并不明确要求输入是已知的或未知的 。相比之下,对于开放世界识别,我们提出系统显式地将新的输入标记为未知,然后逐步地将它们合并到分类器中 。此外,用[39]表述的开放集识别是针对传统的一次vs全部批量学习场景设计的 。因此,它是开放集,但不是增量的,并且不能随着类别的数量优雅地伸缩 。(开放集识别只需识别,无需增量 。开放世界识别=开放集识别+增量伸缩)
虽然是一个重要的作品在增量学习算法处理已知类的新实例(4、5、51),开放的世界需要两个更一般的和困难的步骤:连续检测新类和新输入时发现更新系统包含这些新类的多类开放集识别算法 。新颖性检测和异常检测本身是一个复杂的问题,有着悠久的历史[29,15],目前仍是视觉研究的热点[3,28] 。在检测到一个新的类之后,添加新类的需求留给系统设计者一个重新训练整个系统的选择 。当类别的数量很小时,这样的解决方案可能是可行的,但不幸的是,它不能伸缩 。最近关于 使用SVMs或CNN的研究都需要几天的时间来训练他们的系统[34,19],例如对于1000个类别的图像分类任务,CNN需要5-6个CPU/GPU时间 。基于距离的分类器,如最近类均值(NCM)[17, 31, 36]提供了一个构建可扩展的系统自然的选择,可以逐步学习新的类 。在ncm-like的分类器中,合并新图像或类意味着调整现有方法或更新类方法集 。然而,现有的NCM分类器由于使用闭集假设进行概率归一化,不适合用于开放集识别 。在开放世界识别中处理未知,当测试点从已知数据移到开放空间时,需要逐渐降低概率值(类成员) 。基于的概率分配在NCM中不考虑开放空间 。(在这些增量学习方法中,ncm-like方法不耗时,但目前的ncm-like方法不适合用于开放集识别)