CVPR 2019 | 夺取6项冠军的旷视如何筑起算法壁垒( 四 )


「旷视 Data++」是另一个旷视自研的数据标注和管理平台 。这可以节省研究员大量的时间,加速研究效率 。前文提到的物体检测数据集就是「旷视 Data++」提供的 。
研究思路:应用导向和前沿探索双管齐下
此次旷视入选 CVPR 的 14 篇论文,涉及了行人重识别、场景文字检测、全景分割、图像超分辨率、语义分割、时空检测等技术方向 。除了应用导向的工作以外,也探索了一些前沿学术问题 。
孙剑是这样总结的,「我们研究的的问题分两类: 直接和产品相关的技术问题,间接和产品相关的基础问题 。」
「前者因为有「旷视 Brain++」这个系统,可以很高效的将研发出来的技术或者算法模型直接应该到产品上去 。」

CVPR 2019 | 夺取6项冠军的旷视如何筑起算法壁垒

文章插图
「后者的关键在于两方面 。一方面是选题,既不能搞短期的小修小补,也不能搞漫无边际的发散式研究,这是个认识和判断问题;另一方面是选题后的坚持和变通 。基础研究的一个很大特性是成功的可预测性低,这就要求既要我们坚持大方向,也要懂得适时的变通,修正目标或路线,这其实是个平衡问题 。」
旷视目前的业务主线分为三块:以手机为核心的个人设备大脑场景,以城市传感器为核心的城市大脑场景,以及包含智能制造、智能物流、智能零售的供应链大脑场景 。
以旷视研究院物体检测组为例,此次入选 CVPR 的 4 篇论文主要来自个人设备大脑和城市大脑的场景需求,将产品中遇到的问题抽象出一些概念和细节,当成研究问题去解决 。
比如,来自旷视研究院检测组的论文《ShapeTextwithScale》提出了一种新颖的渐进式尺度可拓展网络模型,针对场景文字检测中任意形状文本问题 。
旷视的文字检测技术有很多应用落脚点,比如车牌检测、证件照检测 。这篇论文主要讨论了场景文本检测领域的两个挑战:其一,边界框在定位任意形状的文字时的性能很差,精度很低;其二,对于场景中两个彼此接近、互相干扰的文本,现有技术可能会产生误检 。论文提出的模型能够为每个文本实例生成不同比例的核 (),并将最小比例的逐步扩展生成完整形状比例的 ,以适应不同大小的文本实例 。
CVPR 2019 | 夺取6项冠军的旷视如何筑起算法壁垒

文章插图
模型的
另一篇来自检测组的论文《: -Awarefor -》,在时空动作检测研究领域针对时间维度问题提出了网络——(上下文转换感知网络),可以改善时空动作检测性能 。这篇论文的应用落脚点是动作行为检测,针对城市管理领域的产品设计 。以老人的意外摔倒为例,一个月可能都没有发生一次意外,用人工检测视频里的摔倒行为成本很高,但是算法可以有效地检测动作行为 。
这篇论文的主要贡献是定义真实行为和非真实行为的边界 。(上下文转换感知网络)可以将类似于真实行为的模糊状态样本定义为「转换状态 ( )」,简单来说是将视频不重要的部分弱化,而将注意力放在真正产生动作行为上 。
CVPR 2019 | 夺取6项冠军的旷视如何筑起算法壁垒

文章插图
转换状态是蓝框,活动状态是绿框,黄框是truth 。
同时,旷视也在放眼未来做长期的预演 。国内计算机视觉公司竞争进入白热化,头部公司之间的在已有技术上的差距并不明显,要形成差异,必须着眼于计算机视觉的未来,提前筑起技术优势壁垒 。
旷视入选此次 CVPR 的论文中,关于 3D 点云结构的研究和图像超分辨率研究属于前沿探索 。以物体检测为例,尽管目前大部分的计算机视觉工作都是围绕 2D,但 2D 检测本身存在天花板 。其网络结构主要是一个金字塔形状,图像越卷积下去越小,特征图谱丢失的信息越多,对检测的最终结果有很大的影响 。