天天看点

小结数据标注初创公司低成本预算运营思路【转自 彭瀚 的脉脉专栏】

起因:

前段时间跟天津滨海新区的一家AI创业公司聊了聊,期间也给对方拟了一份简要的关于低成本低预算情况下实现较高质量、较大批量AI训练数据交付(内/外)的运营思路。经常去思考相关问题确实能帮助对业务的理解和行业的认知不断优化、加深。

我在此记录下来,若参考此内容能或多或少帮到一些人,那也是极好的。

基本思路:

通过 招人(数量、成本、质量);激励(绩效、补贴);优化(流程、工具);算法 等维度 分析帮助创业公司实现较低成本预算下产出足以内外交付的优质大批量数据的一般方案。

一、节约成本招人:

小结数据标注初创公司低成本预算运营思路【转自 彭瀚 的脉脉专栏】
  1. 坐班人数按预算和规划做成本控制(建议:x人左右)。
               
  2. 远程不限于天津。
               
  3. 学生和残疾人团体是目前能够上量的团队中成本最低的,且已有友商实现。学生间拉新、传播能力很强,且急需三方协议。坐班人员则进行学生的培训及担任“组长”的角色对其成效进行监管。
               
  4. 滨海新区周边的中低端招聘缺口主要在【技工】、【销售】和【客服】,仅生态城我所了解的就有人人车、酷狗、陌陌等公司的客服基地,再远一些像58、滴滴等也都在。大环境下的裁员和降薪是他们寻求新机会的契机。而客服经验也能够对智能机器人、智能客服之类的业务提供一定帮助。
               
  5. “运营1带1或1带多”主要指的是第3方数据公司常用的运营方式,每1个运营人员负责对接几个标注团队,运营人员对相应项目的交付负责。这样,是以少量运营人员的管理成本来交换和管理大量团队交付的数据。
               

二、激励制度和流程优化:

小结数据标注初创公司低成本预算运营思路【转自 彭瀚 的脉脉专栏】
  1. 加班/通宵补贴(原文档有,此处笔者省略)
               
  2. 有的采标场景中,越细化的指标标准往往意味着越少量的作业量(和召回率),和更加精确的命中率。“标签”越多定义越精确,规划数据需求时可以先不用过多考虑label间的相互影响等因素。【例:我要识别卫生间的图片,那么规定必须拥有“马桶”、“浴缸”、“盥洗台”中至少一个label的“房间”才能算“卫生间”,而不是“我觉得这个可能算卫生间”。】
               
  3. 而有的采标场景正好相反,越“泛“的标准描述反而让数据人员的操作速度更快。【例:“桌子”的采标速率一定比“方形的六腿木桌”快得多,模型也出得快得多。】所以对应的产品的需求规划时,需要灵活判断2和3的情况,甚至将需求引导成为2和3的场景。
               
  4. “各项优化”牵一发而动全身,不同数据员们对数据标准的统一理解很重要,会对整个闭环流程的连贯性起到积极影响。同时,项目中灵活选用数据处理的方式也会帮助提高效率,比如:6个人,有的项目,1个人负责规划1个人负责采集1个人负责清洗1个人负责标注……要比6个人一起做规划、采集、清洗、标注……要快;但有的项目又完全相反。
               

三、工具辅助:

小结数据标注初创公司低成本预算运营思路【转自 彭瀚 的脉脉专栏】
  1. 虽说是系统功能,但主要说的是一种方法上的优化。举个例子:有一批切词数据,我需要判断它们是否表达某种情绪。ok,根据标准文档,我发觉该情绪label下的分类注解比较模糊(或者是因为人生阅历的差异,或者是因为知识认知的差异),和同事交流意见也各执一词。而且这批数据里边这样歧义或模糊的词句还有很多条,如果都截图去问工程师(工程师给出判断,让他来对结果负责),可能得问到猴年马月才能把这批数据做完。这个时候就有一种方法,或者说工具功能。即:让单数个数据员来做同一批数据,比如3个人。给分词添加0和1的分类标签,如果认为它符合,选1,反之选0。最终从结果池中选取某分词下大于等于两个1标签的为符合,反之不符合。再发散一下,主管或者相关领域擅长者可以背两个或者三个1标签(甚至1票判定权限),这种情况下不用限制数据员的人数也能得到最终结果,还能一定程度上规避数据员串通一气胡乱标注。而且从选错的人中也能很快摘出业务不熟练的人员进行补救培训。同时,不需要“质检”环节。或者说,这批需要标0和1的数据其实是先经过一次筛选的比较不太好拿捏的数据,比较容易判断的可以直接打2入库。或者根据实际情况再进更新原方法。这就非常有趣了。
               
  2. 数据的复用性对创业公司来说,在处理特征近似的模型时能够很大程度节约训练成本和提升整体流程的效率。目前就这一点似乎有两个趋势,联邦和迁移。联邦学习更多的是针对数据的保密性,多家共用;而就迁移学习,两个预训练深度模型所提取的特征之间的迁移能力可由它们对应的深度归因图谱之间的相似性来衡量。相似程度越高,从不同的预训练深度模型中获得的特征相关性就越大,特征的相互迁移能力也就越强。同时,适当采取有经验的AI训练师的意见(从什么模型迁移,从哪个部分迁移),也会对效率的提升起到很大帮助。
               

四、一些补充:

有的玩家更愿意去使用头部公司的采标工具(如easyDL),殊不知你用了人家的平台/工具,不用在采标团队上花费过多成本了,也方便了,但训练的数据却也填充进了人家的模型库。诚然,这个完全看你对自有数据的态度决定,但下决心之前还是好好琢磨琢磨为好。

有的第三方工具公司应对这种情况,推出了定制化、私有化部署的服务。但受限于目前“认知智能”技术实现的进展缓慢,市面上更多的还是以“识别智能”场景为主要功能的工具/平台。诸如自动驾驶(>L3)和智能机器人(语义/情绪)之类的“强人工智能”产品则需要提炼更加精细化、人性化的数据,花费更加成熟的算法和更加漫长的周期来训练模型进行喂养。

那么,训练自己的模型库,或许算是一道必做题了。 
           

继续阅读