天天看点

数据标注行业前景与发展方向浅析【转自 彭瀚 的脉脉专栏】

前段时间领英上一个SEU的M.A.小老弟跟我咨询数据标注平台创业前景和渠道切入点等一系列问题。我们聊了许多,其中非常有意思的是他对标注的描述——“数据标注不就是拉框啥的吗”。

我哭笑不得吧,也有点无奈。毕竟单就标注行业/职位的现状,"拉框啥的"还真就是一个简洁明了又直指业务核心的称谓。

可以说,哪怕到了19年,10000个人里恐怕有9900个都不知道"数据标注"是干啥的。而剩下有99.5个对数据标注的理解也基本是"拉框啥的"……

从图像标注的工具功能维度来说,是有"点"、“线”、“面”、"体"之分的。深入到"线"和"面"的2D标注,区别出了诸如:“两点拉线分割”、“两点拉方框”、"n点连n边形"和更复杂一些的图形语义分割等;与"点"关联,用得比较多的标注形式大概有:“人脸/姿势n点”、“眼睛/手势n点"等;还有"体"系列的3D形态标注,较常见的是"点云建模"和”【火柴人】动作捕捉标注"等。

除了图像标注外,语音标注也是当下AI【认知→理解】阶段落地比较快和完善的一大领域,本人实操过的标注方式就有:帧域音调标注、音频内容转写和语义分类标注等。

而不论是哪一标注形式,受到与之相关的"规划"(产品需求维度)、“采集”(技术层面维度)和"清洗"(实操难度维度)影响,还会衍生出以更复杂维度划分的不同标注类型来。

同时,就算是做同一块儿AI方向的不同公司,由于底层学习算法/框架和主要产品的构建/受众等因素多少有些不同,就会导致数据训练各步骤,尤其是清洗和标注上的定制标准细节"百花齐放,各显神通"。(当然,哪怕是我这种由于全职/兼职数目较多,参与过种类繁多的标注项目的人,也不敢说就已经认识了所有标注形式。)

由此,数据标注这个职业随着AI产业/产品的大量入市,可以说从16年开始,已经正式迈入了高速发展的时期。

再看数据标注的发展方向:

职业上,以往大多企业给予这个职能更多的只是一个纵向的发展空间,也就是类似专员、组长、主管、经理这样的递进。

毕竟作为一个新兴进入大众视野的职业,它的上手门槛实在有些偏低,而专业程度划分上也多以熟练度和工作资历为阶梯,给人的感觉着实有些"不技术"、“不专业”、“不多元”。

不过随着时间的推移,部分公司对标注人员的定义和规划逐渐转到了运营和产品职能的分支上。这是十分良性的一种变化,使得标注人员对业务的接触面和选择性更加宽阔了。

还有的企业本身对标注人员招聘就有多系统操作和脚本编程之类的需求,从而间接提高了职业门槛,使得计算机专业学生应聘和在职标注人员学习培训脚本编程的情况逐渐多了起来。

我恰巧是有幸通过这个职业入门了linux、python和MXnet训练的人之一,也作为一个脚本小子在日常采集、清洗、标注、建模工作中运用了很多批处理脚本以起到提升效率的目的。所以我能够深刻感受到标注这个职业定位变化带来的好处,对个人,也对企业。

至少现在,数据标注这个职业(全职)多少还是呈良性发展趋势。

项目上,我自己已知的,做得最多的两个标注类创业项目就是"标注工厂"和"标注工具"了。

标注工厂老实说也是我比较看好的创业项目,不需要过于高深的技术支持,至少不需要这样的人"坐镇",可以说减掉了AI项目最大的成本之一。

而如果在3、4线城市开设标注工厂。首先,大多都能得到当地zf对高新技术企业的扶持指标以及提供部分人群再就业机会的政策鼓励;同时,用人成本极低,比实习生还要低;且人员流动性应该不会很高。

目前很多企业虽然有自己内部运营的标注团队,但也许能做到"精",却无法达到"多"。而像百度这样的公司,一批次对数据集的需求量动辄成百上千万,如果内部培养标注部门,属实是蛮亏的。更别说有的创业公司对成本的控制简直苛刻了…所以,把数据集外包给标注工厂是目前的很多公司的主流获取训练集方式之一。

而标注工具的创业项目一般会伴生在外包、众包公司的业务上。

当前发展也算迅速。

从刚开始的开源工具标注离线数据,最多再做些后处理;到将开源功能写入内部后台,以达到在线标注、保护数据的目的;再到针对性的、动态的对某一标注大类的功能进行改善优化,期待达到"通用"的效果;到现在比较先进的:工具内部先对数据进行批量、自动化的"粗糙的语义分割",再给标注人员检查修正以提高数据处理效率(主要是对特定相似数据) 等等。

不过走这个方向需要对AI标注有足够的理解以及相对强大的技术力支持,技术门槛要比纯标注工厂高很多。而且由于需要同时对接上下游团队,所以渠道的获取和关系处理上还得投入很大功夫。

当然,不论是哪一项目方向,都可以带来大量的职业机会以及犹如通向新时代钥匙一般的创业机遇。

而机会,或许会给有准备的人打开更大一些的缝吧?……

继续阅读