CV未来，路在何方？李飞飞指路

在深度学习革命进程中，计算机视觉依托大规模数据集，在图像分类、目标检测、图像生成等多个任务都表现出惊人的性能，甚至比人类的准确率还要高！
但CV为何能取得如此巨大的成就？未来将向何处发展？
最近，「华人AI女神」李飞飞在美国文理科学院的会刊 D?dalus 上发表了一篇文章，以计算机视觉中的物体识别任务为切入点，研究了数据集及相关算法的发展历程。
文章链接：
文章认为技术的发展很大程度上源于对北极星（North Stars）的追求。「北极星」在这里指的是研究人员专注于解决一个科学学科中的关键问题，可以激发研究热情并取得突破性的进展。
在和物体识别的成功之后，越来越多的北极星问题涌现出来。
这篇文章主要讲述了的简要历史、其相关工作以及后续进展。其目的是激发更多北极星问题相关的工作，以推动该领域乃至整个人工智能的发展。
文章第二作者是华盛顿大学艾伦计算机科学与工程学院的助理教授，2021年从斯坦福大学博士毕业，导师为李飞飞，主要研究方向为计算机视觉和人机交互的交叉领域，利用源于社会和行为科学的框架来开发机器学习模型的表示、互动、模型、训练范式、数据收集和评估协议。
的前世今生
对大部分普通用户来说，人工智能是一个飞速发展的领域，当然，一切都是源于现代计算机科学的工程壮举，尤其是近几年，AI的工程进展速度越来越快。
从垃圾电子邮件的过滤到个性化的推荐系统，再到汽车里的智能自主刹车，系统内都是大量的工程实践。
工程背后的科学往往被忽视了。
作为AI领域的研究人员，往往对工程和科学有着深刻的认识，会认为二者是密不可分、相辅相成。在实践中激发新的思路和探索，随着时间的推移，将之付诸为工程实践。
一旦确定了基本问题，找到了下一个北极星，你就已经处于领域的前沿了。正如爱因斯坦所说：提出一个问题往往比解决这个问题更重要。
自1950年起，人工智能领域就由各种北极星问题所驱动，当时图灵巧妙地提出了如何判断一台计算机是否值得被称为智能的问题，即「图灵测试」
6年后，当人工智能的奠基人计划举办达特茅斯会议时，他们设定了另一个雄心勃勃的目标，提议建造能够「使用语言、形成抽象和概念、解决现在留给人类的各种问题，并改进自己」的机器。
如果没有这道指路明灯，我们可能永远无法解决新问题。
在人工智能的研究中，视觉是核心，一些进化生物学家假设，动物眼睛的优先进化导致了物种的不同。

文章插图
那如何教计算机看东西呢？
【CV未来，路在何方？李飞飞指路】在世纪之交时，受之前大量相关工作的启发，李飞飞及合作者提出一个物体识别的问题：计算机正确识别给定图像中出现的内容的能力。
这似乎是一个有前途的北极星问题，在1990年到2000年初的十几年时间里，物体识别的研究人员已经朝着这个艰巨的目标取得了巨大的进步，但由于现实世界物体的外观千差万别，取得的进展十分缓慢。
即使在一个单一的、具体的类别（如房子、狗或花）中，物体看起来也可能完全不同。例如，能够准确将照片中的物体识别为狗的AI模型，无论它是德国牧羊犬、贵宾犬还是吉娃娃，无论是从正面还是侧面拍摄，奔跑接球或四肢着地，或者脖子上围着蓝色头巾，都应该能正确识别。简而言之，狗相关的图像种类繁多，令人眼花缭乱，而过去教计算机识别此类物体的模型无法应对这种多样性。