天天看点

低价中标环境下的数据标注溢价从何谈起?

这是AI数据标注猿的第49篇原创

      一个用数据视角看AI世界的标注猿     

本文重点讨论在行业内低价中标的大环境下,行业内存在哪些问题及数据标注在产业链中哪些核心痛点,从而引申讨论数据标注下的数据质量体系到数据价值体系。

《人民日报》今年曾两次发文诟病“最低价中标”,给很多传统制造业的从业者们敲响警钟“最低价中标”原则一天不变,行业就很难有什么工匠精神,更不要说什么中国品牌!”

通读全篇之后发现,对于传统行业的确有很大的警醒作用,对于数据标注行业好像完全不适用,数据标注行业的虽然绝大多数也是低价中标,不过是“低价格高质量”。

但是引发了关于低价中标环境下的数据标注如何产生溢价的思考。

记得前两年在负责竞标某个大厂的一批标注项目的时候,根据整体核算大概报了87万预算方案,因为之前合作过所以综合利润率大概做在了20%左右。结果有一个“很有实力的竞争对手”出手就报了16万,撂下一句话“不为赚钱”。可想而知客户选择最低了。

最后情况就是执行阶段问题百出,但最大的问题是对行业影响负面的,这个客户后面几乎所有的项目如果再做最多只能算一个流水了。

当然回过头来看这或许是必然,行业壁垒太弱,即使没有这个也可能有一个对手甲乙丙丁出现。这也变成了这个行业主力军越来越下沉到4,5线甚至更低线城市的原因吧。

冷静分析一下,还是会发现“此低价中标非彼低价中标”。

在传统行业中的低价中标,从而导致产品质量降低,原因是复杂的,除了监管、信用体系等原因还有质检流程相对复杂和严重后果反馈周期过长的等原因。

而在数据标注行业中数据质量反馈周期短和反馈成本相对低,这样就可以即时反馈,就使得“低价格高质量”是可实现的。

如此一来,数据标注的价值在哪?溢价又从何谈起呢?难道只能在追求低价的道路上一去不复返了么?带着本文我们从下面三点进行一个讨论:

  • 数据标注行业中存在的问题
  • 数据标注在产业链中有哪些核心痛点
  • 数据标注行业中的数据质量体系与数据价值体系

一.数据标注行业中存在的问题

行业内有很多问题也是老生常谈了,本文主要是针对目前的数据质量体系下必然会存在的问题进行讨论。

目前标注行业内的主要依据体系就是数据质量体系,也就是以标注准确率作为唯一验收标准。

但纵观标注项目的运行流程,基本是有算法提出需求到项目组负责人整理成标注需求再到外包或者内部消化进行标注进行验收回收。在整个过程实际项目执行过程中,有很多时候变成了“一言堂”。就会出现很多不能被认可的无效消耗。

这样也会导致很多数据标注公司无法主动给出有效的数据标注整体解决方案,因为针对数据质量体系的解决方案就是一条:最低达到准确率要求,当然准确率越高越好。

而目前用到的解决方案基本上是用工程学的思路标准化流程化的平台规范化标注员的标注流程和标注方式,而常规的埋点验证、多人验证等方式或者是博弈算法等等很多时候因为成本的原因或者标注方式等的原因极有可能无法实用。

即便如此,整体目标依然是追求用更高的效率和更低的成本来解决客户提供的标注需求。那么“低价格重质量”就是必然的结果。那么数据标注是否可以有更多收益呢?

更多收益很多人很容易想到可以对外输出标注解决方案,但是目前跟很多从业的小伙伴聊过的结果是,目前来看是没有太多价值的,顶多是在谈客户阶段让客户认为你是比较专业的,有经验的,无法形成有价值的解决方案

那么就延伸出一个问题,数据标注的价值在哪?是不是目前数据标注的项目出发点有问题?

二.数据标注在产业链中有哪些核心痛点

众所周知数据标注虽然在目前人工智能的产业链中是非常重要的一环,但是数据标注在整个项目中是纯成本投入,所以对低成本高质量的无限最求是必然的。

目前大部分的解决方案是平台化管理、自动标注或者半自动辅助标注,但是自动标注的方向是存在一些问题的,如果作为研究场景AI公司需要标注的数据,都可以通过第三方平台的自动标注来实现标注再返回用于训练,那么就有两种可能1.客户提供的数据存在问题,不够精准对于算法的数据价值较低。2.客户的算法太烂了,都可以直接买给客户算法的解决方案了。

而半自动辅助标注在部分项目中提升标注效率,在项目竞争中得到优势,但是投入产出比是否能核算过来呢?能否在目前的低价中标的大环境中支撑下来呢?目前来看还不得而知。

而AI的落地目前存在哪些核心问题,是三个部分:更廉价的算力、更优的算法、更有效的数据。这部分讨论我们假设算力和算法是有同等竞争力的情况下,数据的成本依然过高。AI场景化应用效果不好,数据样本不够全面。开发周期较长。

最近在跟一个高速管理公司的人聊的时候,他们的确也需要上电话客服语音系统,辽宁葫芦岛区域的使用人群,但测试了几个主流的语音服务商效果都不行。也在寻求定制化的解决方案。不过整体预算都很高,其中包含了几千小时的语音标注成本,导致目前他们无法推进项目落地。

而目前的很多场景都存在类似的需求,传统企业的确是需要AI产品,但是成本的确完全超出了目前大部分传统企业所能承受的。

那么这个问题就没有解么?如何可以使用最小数据量获得最优解呢?

三.数据标注行业中的数据质量体系与数据价值体系

基于上面两点,我们可以发现一面是热火朝天的数据标注行业在为了准确率夜以继日,一方面是高估值又落地预冷的AI产品。中间缺少了什么?

缺少高算力么?还是缺少好的算法?在很多场景下可能都不是,应该是高价值的数据而非单纯的高质量数据。

数据应该有两个维度的衡量,一个是数据质量维度,另一个是数据价值维度。

但是目前在标注行业价值维度完全是甲方提供数据所决定的,而几乎所有的供应商都是默认数据是具有价值的,只关心数据的质量维度。只对数据质量负责,而不对数据价值负责

实际情况有可能所提供的数据量也是算法部门拍脑门想出来的,但甲方端的标注项目经理也会自然的默认提供的数据均是有价值的。

在项目执行阶段就有可能会遇到这样的问题:项目计划是1000万条数据,数据分批提供过来,有可能由于数据采集端没有提供足够的数据而停止,也有可能数据标注到一半,接到剩下的数据不用标注了的通知。从而导致供应商极为被动但又无可奈何。

这种带有随机性的数据价值评估在哪呢?

从技术的角度,目前基于数据管理流程及人员管理流程等主要以流程管理及标注工具的标注平台,几乎没有壁垒。并且基于数据质量体系的逻辑对于AI落地又没有主动的积极作用,那么就何谈溢价呢?

而数据价值体系建立这件事应该是由数据标注提供方来提供解决方案,而不是AI企业。因为我们应该比他们更懂数据,而非仅仅标注。

AI不缺数据,缺的是高价值的数据。

那么基于数据价值体系的数据标注解决方案就应该更具有价值。

-----------------------完---------------------

公众号:AI数据标注猿

知乎:AI数据标注猿

CSDN:AI数据标注猿

微信号:

-----------------------完---------------------

感谢你的阅读,关注公众号回复“抽奖”两个字,即可参与现金抽奖。

继续阅读