作者构建了一个500张图片的数据集,从-25000张图片中选出最具美感的前500张,并替换了极端长宽比和内容不恰当的图片 。
在任务中,为每一个用户随机展示10张图片,并让他们从合成网格中选择1-4条最能描述物理元素构成的线 。
文章插图
并且前两个注释将作为验证集,来移除粗心的注释,所有工作人员需标注12个图像,4分钟,每个任务1美元,匹配15美元每小时的最低工资 。
作者共收集了1004个注释任务,共11961个非验证集的图片注释,平均每张图片22个注释 。从这些注释中,我们过滤掉了工作人员不能使两个验证任务正确的任务反馈,即在样例中没有选择提供的线 。最终得到9133张图片的注释,平均每张图片17个注释 。
目的是为每幅图像选取一组最相关的构图线作为 truth 。做法是,对给定的图片定义每条线的分数为包含该线的工人注释的百分比 。对最初的一批注释可以确定一个0.4的分数阈值,即是否应该选择一条线作为 truth之一,这导致选择作为 truth的线数目接近每个注释中选择的平均线数 。有10幅图没有 truth,所以最终的数据集为8966个图像注释,每个图像的 truth平均数量是1.82,每个图像的注释的线的平均数量是2.17 。
基本的 truth注释中的平均行数与初始注释的行数非常接近,意味着大多数行都达到了这个分数阈值 。另外,只有10张图没有超过阈值的线条 。这表明,在给定图像的合成网格中,什么是“最相关”的线的概念是一致的,新手也可以感知并注释这种关系 。此外,还有一个可选的文本框用于反馈,很多员工表明他们觉得任务有趣,可以提高他们的摄影技巧 。
注释观点
总结:
1、执行注释是很有用的 。无论是专业的摄影师(new idea)还是新手摄影师(帮助理解构图),都对注释感兴趣 。
2、注释易于理解 。都可以依据合理的一致性注释来完成摄影任务 。
故作者决定选择这条路来指导相机构图 。
自适应电枢
自动检测一组相关的线条,以便在相机中给出这些注释,称这种方法为自适应电枢 。
启发式算法
构图可以被认为是将图像中视觉上重要的元素与构图网格的线/交点对齐,作者用显著性来表示这种视觉上的重要性 。所以自适应电枢捕获与显著性最匹配的线集 。同样采用对候选线评分的做法,分数越高图像中视觉重要性高的元素就越好与该线对齐,并且它们与图像的构成越相关 。
对于给定的图像,使用苹果内置的beta 库计算基于注意力的显著性图,这张图就用来投票电枢中的线的分数 。对于显著性值为S的显著性图中的每个点p,其结构线L的分数贡献为该公式:
对于一个高斯核,其大小为图片长维的1/10,sigma为核大小的1/4,每条线的分数按照该线的长度进行标准化 。最终选了得分前三的线作为启发式的注解/自适应电枢 。
注:高斯核函数
移动实现
移动实现:作者的应用运行在IOS13.0公测版的上运行,其中显著性和自适应注释在当前相机图像的背后不断计算 。该应用有一个快门按键,拍摄时会将屏幕刷成白色,除了构图没有其他相机功能 。为减少计算时间,预先计算每条线的高斯映射并存成图像 。每条线的分数可以通过简单地将显著性图像乘以相应的预先计算的高斯映射并计算总和来得到 。为了实现视觉更新并不分散注意力,采取0.1秒的间隔来计算线的分数 。
评估启发式结果
对每幅图像,计算出启发式注释与 truth相交处的平均线数除以这两种直线合并的线数 。这个指标的平均值为0.38 。作为参考,随机抽样10000条注释,平均值为0.11 。这个指标对于单独的工作人员的注释相比于 truth线的值为0.47 。这个值是合理的也是被期望的 。