CVPR 2019 | 夺取6项冠军的旷视如何筑起算法壁垒( 二 )


魏秀参介绍说,此次参加挑战赛的模型集成了最前沿细粒度技术成果,包括 -to-fine、iSQRT、Class- Focal Loss 等;同时,团队也提出「后验概率重校准」技术,即通过先验知识对模型输出的后验概率进行校准,极大提高拥有较少训练图像的长尾类别的识别准确率 。最终结果,旷视在挑战赛上比第二、三名领先了一个身位 。
在另一个细粒度图像识别的比赛(植物标本挑战赛)中,参赛团队需要从植物标本中鉴定开花植物物种(),数据来自纽约植物园 。旷视击败了去年的冠军、今年的第二名大连理工 。
多说一个细节:在细粒度图像识别的挑战赛上获胜的模型使用了旷视自研的 Brain++技术 。旷视内部采用了 One-shot 神经架构搜索的方法,兼顾了性能、效率、灵活性,使得 Brain++可以在实际模型生成中实现快速落地和调用 。
这是旷视南京研究院第一次参加 CVPR 的挑战赛 。从 2017 年组建至今,南京研究院希望将此机会将多年积累的技术放到国际舞台上比一比 。魏秀参后来透露,挑战赛的胜利提升了团队的自信心和凝聚力 。
相比于在挑战赛上的突破,旷视研究院检测组负责人俞刚带队获得自动驾驶挑战赛三项冠军更像是「常规操作」 。在去年 CVPR 上,俞刚带队就获得了自动驾驶识别挑战赛实例视频分割(-level Video )的冠军 。今年,旷视分别在& D2-City 目标检测迁移学习挑战赛、D2-City &目标跟踪迁移学习挑战赛以及3D 检测上获得冠军 。

CVPR 2019 | 夺取6项冠军的旷视如何筑起算法壁垒

文章插图
组负责人俞刚(中)在 CVPR 现场领奖
CVPR 2019 | 夺取6项冠军的旷视如何筑起算法壁垒

文章插图
3D 检测是此次自动驾驶挑战赛的一个亮点 。是今年自动驾驶公司 Aptiv 发布的一个全新数据集,除了包括每段 20 秒的 1000 个场景以及 140 万幅图像外,该数据集使用了新的 3D 方法来整合物体检测,并且发布了 39 万个激光雷达扫描输出 。尽管旷视目前并未明确涉猎自动驾驶业务,但俞刚表示,旷视希望通过 3D 和 2D 的结合,提前布局以应对未来精度敏感的产品落地 。
在这项挑战赛中,旷视设计了一个多尺度、多任务的模型,借助新型检测网络,结合均衡采样等策略,极大提高了模型的检测精度,尤其是在小物体上 。最终,旷视模型比官方基准(45.3%)高出 18 个点,达到 63.3%,比第二名也高出 8.8 个点,击败了包括香港中文大学在内的顶尖团队 。
另外两个 D2-City &的场景迁移挑战赛,看重的是算法的检测和泛化能力 。D2-City 是滴滴发布的大型数据集,而则是去年加州伯克利大学发布的开源数据集 。前者是国内数据,后者是美国路况,场景差异巨大,这就考验了算法在不同场景的迁移能力 。
首次主办挑战赛,大型数据集助推科研发展
除了作为参赛者的身份外,旷视也首次在 CVPR 举办了研讨会和挑战赛——DIW 物体检测挑战赛( In the Wild) 。一家创业公司回馈社区,加速技术推进 。这样的做法确实令人惊喜 。
国内的技术公司在过去一直扮演着模仿和追赶的角色,但在人工智能时代,这些企业正逐步掌握话语权 。众多在工业界发现的问题学术界鲜有涉猎,只有在数据量庞大、场景多元的中国才能被挖掘出来,这些问题的解决将对整个研究领域带来巨大的推动作用,但需要有公司抛砖引玉 。这就是旷视正在做的事情 。
旷视为物体检测任务引入了两个新的基准挑战赛: 和。用于解决 365 个物体类别的大规模检测问题 。挑战赛设置了两个方向:60 万训练图像上的所有 365 个物体类别、以及用于在训练图像的子集上处理 100 个具有挑战性的类别 。而是为人群人体检测问题而设计,数据集包含了 34 万人类实例 。