天天看点

最全开放数据标注工具浅析 (计算机视觉类)

伴随着人工智能行业的强势崛起,数据标注这个在人工智能行业链条中有着举足轻重地位的环节,也渐渐的成为了一个新兴的服务型行业。
最全开放数据标注工具浅析 (计算机视觉类)

       接下来,我们说说数据标注。我们首先从字面来看,“数据标注”从字面意思不难理解,其实就是对数据利用不同方式进行处理。再者,既然方式已经确定,那么如何让这种处理方式有一个固定的载体,就是我们今天要谈的重点内容。

        显然,数据标注工具就是处理数据标注需求的最好载体。那么,我们现在就展开来谈谈,目前市面上都有哪些数据标注工具,同时这些数据标注工具各自的优缺点又体现在什么地方。

  1. Labelme

    开源的图像标记工具,有广泛的使用人员和知晓率,软件自身也在不断迭代,开发者也在不断的优化使用功能。

    优点

          ♦ 开源工具,使用者可以根据自身需求对其功能进行添加和修改,软件基础功能稳定。

          ♦ 在以点坐标的方式定位被标注元素轮廓的同时,还可以以像素点的方式定位被标注元素轮廓。

          ♦ 操作简单,可选用的工具包括点、2d边界框、多边形、圆、折线。

    缺点

          ♦ 需要每台使用电脑进行安装部署,如临时操作电脑没有该软件,则项目无法进行。

          ♦ 需要人工分发和汇总原始及标注完成数据集,这样会造成较高的运营成本(分拣图片消耗的人力、时间及每台标注计算机的硬盘消耗)。

          ♦ 无法进行协同办公,在同时存在质检和标注两种人物角色时,质检人员无法做到即时查看标注人员的标注进度及标注质量,这会导致成批次的数据完成后一旦出现问题,大面积修改的情况。

          ♦ 只能够输出Json格式文件,对于需求其他输出格式的使用人员会消耗更多解析时间。

          ♦ 无法对标注结果(2D边界框、多边形、点、折线)进行计数,无法分类统计标注结果(图中有多少个人、车、其他元素)。无法对标注结果进行计数统计的直接结果就是无法衡量一个标注人员的效率。

    1. LabelImg

    开源图像标记工具,有广泛的使用人员和知晓率,同时自身也在不断迭代。

    优点

          ♦ 开源工具,使用者可以根据自身需求对其功能进行添加和修改,软件基础功能稳定。

          ♦ 操作简单,界面简洁。

    缺点

          ♦ 需要每台使用电脑进行安装部署,如临时操作电脑没有该软件,则项目无法进行。

          ♦ 需要人工分发和汇总原始及标注完成数据集,这样会造成较高的运营成本(分发、汇总图片消耗的人力、时间及每台标注计算机的硬盘消耗)。

          ♦ 无法进行协同办公,在同时存在质检和标注两种人物角色时,质检人员无法做到即时查看标注人员的标注进度及标注质量,这会导致成批次的数据完成后一旦出现问题,大面积修改的情况。

          ♦ 只能够输出voc(xml)格式文件,对于需求其他输出格式的使用人员会消耗更多解析时间。

          ♦ 无法对标注结果(2D边界框、多边形、点、折线)进行计数统计,无法分类统计标注结果(图中有多少个人、车、其他元素)。无法对标注结果进行计数统计的直接结果就是无法衡量一个标注人员的效率。

    1. VIA

    免费标注软件,有广泛的使用人员和知晓率,同时自身也在不断迭代。

    优点

          ♦ 网页端去打开不需要部署电脑,打开方式比较灵活。

          ♦ 可以增减2级标签及属性,对于有相关需求的使用者很友好。

          ♦ 可以实现纯文本输出格式CSV。

    缺点

          ♦ 需要人工分发和汇总原始及标注完成数据集,这样会造成较高的运营成本(分发、汇总图片消耗的人力、时间及每台标注计算机的硬盘消耗)。

          ♦ 无法进行协同办公,在同时存在质检和标注两种人物角色时,质检人员无法做到即时查看标注人员的标注进度及标注质量,这会导致成批次的数据完成后一旦出现问题,大面积修改的情况。

          ♦ 只能够输出Json格式文件,对于需求其他输出格式的使用人员会消耗更多解析时间。

          ♦ 无法对标注结果(2D边界框、多边形、点、折线)进行计数统计,无法分类统计标注结果(图中有多少个人、车、其他元素)。无法对标注结果进行计数统计的直接结果就是无法衡量一个标注人员的效率。

    1. 精灵标注

    国内免费标注软件,有广泛的使用人员和知晓率,同时自身也在不断迭代。

    优点

          ♦ 全部中文操作界面,上手简单。

          ♦ 支持多种格式输出。

          ♦ 可以实现二级标签。

    缺点

          ♦ 需要每台使用电脑进行安装部署,如临时操作电脑没有该软件,则项目无法进行。

          ♦ 需要人工分发和汇总原始及标注完成数据集,这样会造成较高的运营成本(分发、汇总图片消耗的人力、时间及每台标注计算机的硬盘消耗)。

          ♦ 无法进行协同办公,在同时存在质检和标注两种人物角色时,质检人员无法做到即时查看标注人员的标注进度及标注质量,这会导致成批次的数据完成后一旦出现问题,大面积修改的情况。

          ♦ 无法对标注结果(2D边界框、多边形、点、折线)进行计数统计,无法分类统计标注结果(图中有多少个人、车、其他元素)。无法对标注结果进行计数统计的直接结果就是无法衡量一个标注人员的效率

    通过对上述4种标注工具优缺点的介绍,下面我们着重介绍一下标注软件LabelHub。

    1. LabelHub

    严格说LabelHub不简单的是一个标注软件,它更像是一整套标注系统。之所以称之LabelHub为标注软件,因为它又兼有标注软件操作界面简洁,易懂的特点。

    优点

          ♦ LabelHub是一个免费的操作软件,与大部分需要花费高昂部署费用的软件有着鲜明的优势。

          ♦ 全中文操作界面,流程化创建项目,方便操作。

          ♦ 所有标注员账号由系统统一分配数据,直接解决了分发和汇总数据的痛点。

          ♦ 可以协同操作,标注员在标注的同时,质检及其他有相关权限的账号可以实时看到标注结果,方便及时纠错。

          ♦ 可以按小时/天/周/月等时间单位统计标注人员账号的数据完成情况,标注人员的标注效率完全可视化,在降费增效方面作用突出。

          ♦ 随时随地可操作性强, 只要有网络和账号,随时随地都可以进行登录操作,不受环境的制约和影响。

    缺点

          ♦ 因为上线的时间较短,软件的使用人数较少。受众人数的多少会遇到改变习惯方面的困难。(比如使用习惯上的改变,现有流程的颠覆,重跑一个新的流程也面临需要花费时间)。

           以上就是目前数据标注行业中比较流行的各类开放数据标注软件。当然,这些远远不能覆盖所有的相关软件。这里只挑选一些具有代表性,稳定性高的软件作为介绍。如果后续还有更出色的相关软件,我们也会持续关注。

            这一期只说关于计算机视觉方面的相关标注软件,后续我们会和大家分享关于语音转写、自然语言处理等方面的相关软件。希望大家多多关注,如果有任何问题,也可以关注觉醒向量官网更新。

继续阅读