数据标注是做什么的 3D数据标注是做什么的( 三 )


数据标注是做什么的 3D数据标注是做什么的

文章插图
文章插图
图片:老友记
在巨头涌入、工资缩水的“大趋势”下,我们可以看到标签行业的“小趋势”:很多数据标签就像精心种植的水稻,在秋收季节到来之前,稻穗就落入了土壤 。
年初,刘梦媛独自接到一份“私人账单”,赚了2万元 。
那是一个大厂“丢”的单子,做无人数据标注 。由于公司所有员工都在做另一个项目,她带了一些以前的老同事和10个兼职的学生,做了一个“包工头” 。
将近一年没有亲自批阅文件的刘梦媛,只能硬着头皮和大家一样动动鼠标 。他的头顶、脖子、手肘、手腕、膝盖…都要一个一个的标注 。整整一个星期,一群人已经批改完了几万个点——他们看似站在科技的最前沿,却在做着艰苦的工作 。
本以为这笔生意之后,可以继续接小单,但是好景不长 。“从4月份开始,出现了很多新的团队,价格特别低 。原来报价是按毛算的,现在报价上有几毛钱” 。
数据标签行业有一套分工流程:巨头把任务交给中游的数据标签公司,然后中游再打包给下游的小公司和作坊 。一些小作坊会进一步众包给“散户”:比如兼职的学生 。曾经一单生意几经转手,导致行业众包中介级联越来越严重,利润所剩无几 。
“AI肯定是未来的大趋势,但是我们小公司很迷茫 。听说很多公司都不干了 。”刘梦媛以为“私单”做得差不多了,她就一个人出去打工了,但在这样的行业形势下,她能感受到的只有压力 。
困境,挣扎虽然目前的情况并不乐观,刘梦媛仍然认为,数据标签行业最终将是动荡的,他们是最后一批 。
从好的角度来看,在下游市场混战的同时,上游的AI市场从未停止发展,AI正在成为人们进入这个社会的“入口”,这让刘梦媛等从业者感到充满希望 。
数据标注是做什么的 3D数据标注是做什么的

文章插图
文章插图
然而,该行业也显示出严峻的一面 。数据标注是迭代的:大模型正在慢慢取代标注器,一些门槛更高、学科更多的领域正在涌现 。比如医疗卫生领域需要标注病理切片等 。以腰椎间盘突出的CT片为例,标注者必须准确识别和标注椎间盘的轮廓 。但是很多医学专家没有时间和精力去做数据标注,而这种工作是普通标注者力所不及的,通常需要医生或者医学生来做 。导致这些专业人员的成本居高不下,是普通标注人员的10倍 。
以前像刘梦媛那样手动教授人工智能学习的方式被称为“有监督的”机器学习 。但当人工智能逐渐成熟后,自身的识别能力和模型拟合精度会不断提高,会进入人机合作模式 。直到人工智能在模型注入的精度和效率上完全超越人类,那么它就会离开人工标注,进入无监督的机器学习 。
理论上,随着各个垂直场景的技术发展,人工智能可能会进入无监督学习状态 。AI的核心在于预测,AI的下一个变革是无监督学习和常识学习 。也就是说,“老师”们正在努力让AI不依赖人类的训练,自己观察世界如何运转,学会预测最终AI会摆脱“老师” 。
但刘梦媛并没有强烈的危机感:“我正在带领我们的人做最有意义的事情,把每一个人的智慧变成AI 。我可以保证,如果未来AI取代了人类,他们将是最后被取代的 。”
为什么是最后一批?“因为总会有新的行业需要引入AI,而我们(标注者)需要为他们准备数据 。”