影响数据标注效率的表、里因素【转自彭瀚的脉脉专栏】

受益于本人两年多来曾从事过的3个全职AI数据处理工作以及至今20+个不同方向的AI数据兼职项目，让我在较短的时间内执行并掌握了人工智能训练数据集的规划、采集、清洗、标注和建模这一整套流程(主要是有监督学习)。

因此自认为或许可以在对AI数据处理的效率问题上bb几句：)

ok闲话不多说——

表因素———工具：

一个贴合本公司数据业务要求的工具一定是比开源的通用工具要更具使用效率的。

由于企业间业务方向和生产水平各不相同，且随着技术不断进步完善，甲方对标注人员管理的规范意识以及数据安全意识的加强，很多技术能力足够的AI企业和数据服务众包公司都开发了自己的独特的数据处理工具/系统。

本人有幸接触过10+不同类型AI企业的内部工具，体验过一些让人眼前一亮的功能设计，也遇到过一些或软或硬的问题。

一般来说数据标注工具有五个基本要素———I/O接口、标注功能模块、关键数据可视化、质检模块以及动态的分发/搜索功能。

就提高效率来说，“标注功能”、"质检"和"分发"应该是可用性最强的三个切入点；而其余两点多受限于硬件性能、网速、显卡性能、底层框架等因素。

1).标注功能：

如果你不是专门做众包标注的公司，就不需要专门支持几十种标注类型，尽可能简化标注功能选项，只适配深度学习工程师需要的建模格式即可。这样也减少了标注人员的记忆量，令操作流程更加简单。

当然，优化完善某单一标注功能的使用细节，也一直是相关研究人员的努力方向。至今

2).质检：

目前我所见过的，包含了质检步骤的标注工具，其质检流程基本都是由人工来做，工具只提供搜索、调用等功能来简单辅助人工。

【我曾在某个数据清洗系统的质检步骤中发现了一个很有意思的思路，在这里我称它"三审制"。简单来说就是：在质检乙方交付的海量清洗过数据时，采用类似判断题的方式，分别让三个人对同一批数据进行判断，如果大于两人判断结果"正确"，则将数据归为"正确"；同理，还延伸出"五审制"和"x审制"等。这种方法在应对海量数据上有其独特的优势，同时对各人员的任务分发、核算也简单明了。】

个人认为质检步骤的效率提升重心近几年的话多半还是要放在——"如何用一个最简按钮分类更多数据"和"如何预处理批量数据以适应人员进行二次判断"上。

3).任务分发/搜索：

动态的、类别定义精准且操作简易的批量数据分发系统是一次标注任务良好的开端。

而一个操作简便又能满足精准的定位/返回的搜索系统更能让标注人员在即时修改和查询验证上如虎添翼。

现实使用场景下，数据标注工具的深度远不止上述这些。

而一个有经验的标注人员是能够参考本公司的主要业务方向来针对标注工具进行一系列的优化建议的。

里因素———流程：

一般来说，整个AI数据训练的流程可以分为：规划、采集、清洗、标注、建模(测试、调参)。

1)."规划"需要与产品运营人员对接，参考产品定位、用户画像和使用场景等因素，针对性地对相应分类下的对象们进行二次标签，最好能突出主次、与产品/环境贴合程度等影响因素。

同时，合理的"规划"能对接下来"采集、清洗、标注"的标准的构成起到决定性作用。规划越清晰，定位越明确，标注标准也能在标注员手中得到更深入、准确的贯彻。

2).对于"采集、清洗、标注"，向上需要透彻理解所需处理数据的标注标准，向下需要"采集"、"清洗"和"标注"一环扣一环，相互参考对照，为通过测试集的验证尽到最大化努力去构建，去优化数据。

总的来说还是：熟能生巧+不断适应变化并进行优化。

【个人认为训练集数据处理(采集、清洗、标注)，建立测试集模型，以及使用验证集调参。这三步都是可以由数据标注运营部门的成员完成的。可以为技术工程师省下很多时间，培训成本也不算高，因为不需要他们多么深入理解卷积神经网络之类深度学习知识的原理，只用打几行常用命令在服务器搭建好的环境下开跑就可以。我也曾经就是这么干的：)】

3)."测试"和"调优"这两步属于后期对模型数据集的优化。

比如我需要建立"女人"的模型，那么作为导向标签的"女士发型"、"女装"和"女士姿势"等，哪一个标签相对整张图的贴合度阈值，是应该调高？还是该调低？调多少更合适？这就需要通过反复测试来验证了。

不过这一步的出产效率多取决于学习框架、服务器配置、显卡配置等一系列因素，所以对纯标注员来说倒不必以此作为提高效率的切口。

————————————

以上，工具的活用以及流程的优化是我认为目前门槛和成本不高但作用会很大的两个AI数据处理效率影响因素。

也许你觉得上述论述或多或少有点"泛"的感觉，原因是它普适于我所参与过的所有数据处理项目，但若要具体到某一特定项目的细节上却可能"不够"。所以平常实践中仍得强调一个——“活用”，这是需要经验和理解共同堆砌出来的能力。

影响数据标注效率的表、里因素【转自彭瀚的脉脉专栏】

继续阅读

K-近邻算法以及图像分类应用

小i机器人受邀赴韩交流，CFO首尔亚洲金融论坛演讲

吴恩达deeplearning

吴恩达logistic回归实现

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

吴恩达机器学习笔记（3）

吴恩达j机器学习之过拟合

吴恩达机器学习(一) 介绍

深度学习模型分析人类复杂疾病的准确性

疾病研究：重症肌无力

人工智能如何有效地运用于自然语言处理

新闻 | Mapbox 牵手阿里，飞猪旅行上线六大城市地图功能

[HTML5]自定义属性 data-* 和 jQuery.data 详解

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

2021年危险化学品经营单位安全管理人员考试题库及危险化学品经营单位安全管理人员考试技巧

无人机--飞控科普

影响数据标注效率的表、里因素【转自 彭瀚 的脉脉专栏】

继续阅读

影响数据标注效率的表、里因素【转自彭瀚的脉脉专栏】