天天看点

【观隅】数据集管理与可视化平台-NABCD分析

项目

内容

这个作业属于哪个课程

2021春季软件工程(罗杰 任健)

这个作业的要求在哪里

团队项目-初次邂逅,需求分析

观隅 数据集管理与可视化平台(取“观一隅而知全局”之意),一款数据集管理与可视化软件,可以对常见深度学习数据集进行筛选、可视化以及结构解析。可以方便深度学习新手快速入门,也可以通过对数据集内容的直观展示辅助模型的设计与优化。

深度学习近年来被大量应用。目前网上有各种领域各种各样的数据集,数据集的格式具有多样性,不方便使用者直接查看

初次接触某领域的深度学习任务时,用户需要通过观察数据集来了解任务的输入输出,从而对任务建立起直观的理解

对数据集的可视化可以加速用户后续的模型开发过程,观察模型在数据集上表现不好的部分,可以相应地改进自己的设计,加速开发进程

常见深度学习数据集的可视化

对于简单的带标签的分类数据,展示数据(不同形式)以及数据对应的标签

对于图像分割、物体识别等数据,用颜色覆盖层标注图像的分割结果和物体位置,同时标注物体内容

对于视频数据,动态用颜色覆盖层等方式标志出目标

对于音频数据,在时间轴上展示数据中被标记的区域

对于文本数据,用不同颜色分割不同的被标记成份

数据集文件结构的可视化解析

解析文件的结构

对于某些没有DataLoader的数据集,提供示例代码生成

数据集内容的筛选和搜索

用户可以选出自己感兴趣的目标标签并查看结果,例如从MNIST数据集中找出所有标注为1的图像

在NLP相关的数据集里,用户可以查找相关的数据内容,例如从IMDB数据库中找到存在某个词的数据及其标注

数据集的筛选和搜索

为了方便用户直观体验一些基础的公共数据集,在服务器上搭建网站提供主流数据集的管理与可视化服务

考虑到数据隐私和网络性能等原因,允许在用户主机端运行Web服务器提供管理(类似TensorBoard),用户可在浏览器中打开本机的数据集进行可视化和管理

用户可以通过本平台对某个或某类数据集形成直观认识

用户可以通过本平台快速筛选出某领域的数据集

用户可以通过本平台对某个数据集中的数据进行快速筛选,并以可视化的方式对这部分数据的特征进行了解

用户可以将服务部署在本地,对于本地的涉密数据集也可以可视化

(该部分最近更新于2021/4/18)

对于现有的数据集的具体结构展示和可视化方式,其主要来源仅有以下两点:

数据集发布者提供的说明文档,抑或是数据集内容示例。

各类博客作者开源的可视化代码或针对数据集的解释。

以最常见的<code>MNIST</code>数据集为例,对应于上述的第一个来源,其官方网站中给出了对数据集格式的介绍如下:

这样的内容虽然权威且准确,但一个重要问题是其描述形式过于复杂而缺乏直观性,很难让初次接触机器学习的小白用户一眼看懂这个数据集的内容是什么样的。此外,国内较难访问该网站,也会造成一定的困扰。

而对应于上述的第二个来源,搜索<code>MNIST</code>关键词找到的某篇博客中给出了博主自行实现的可视化代码和相关结果如下:

【观隅】数据集管理与可视化平台-NABCD分析

这样的内容虽然能够满足小白用户直观看到数据集的需求,但是由于国内博客环境鱼龙混杂,其时效性和权威性都堪忧。此外,博主往往仅给出几个小的样例展示,用户若需要查看其它可视化结果,则需要自行修改所给出的代码,可能会存在一定的困难。

除开上述不便之外,以上二者都仅是静态展示,而不支持用户以较便捷的方式筛选查看数据集的指定部分内容,功能上较为简单。并且,以上内容都比较零散,在不同数据集间的可迁移性极差,用户若想直观观察其他数据集,往往要费时费力重新搜索寻找其他数据集的以上内容,效果上不尽如人意。

以上,我们可以说,目前尚没有功能完整的同时支持大量数据集的竞品。

因此,我们的产品既具备数据筛选搜索等可交互功能,又能够同时支持多种数据格式的不同数据集,差异化较为明显。至于对目标用户的具体好处,请参见功能规格说明书的典型用户和典型场景部分。

本产品目标用户为初步接触深度学习的高校学生、接触深度学习新领域的高校研究生和科技公司研究员、希望可视化展示数据集以进行课堂教学的老师等。我们希望通过微信朋友圈,QQ空间等个人渠道推广的方式,以及在方法论等引导学生入门深度学习的课程群进行推广的方式,从北航的参加冯如杯、选修方法论的同学切入,逐步拓展到研究生、导师等人群。

本产品将具备两种部署方式。其一,我们将部署一个只读的针对常见数据集的展示网站,用户可以查看已有数据集的可视化结果和筛选结果。其二,用户可以在自己的服务器或PC上自行部署完整软件,从而支持新数据集的上传功能。目前暂定发布在GitHub和Pypi上,团队现暂不了解Pypi的发布要求和相关工具链的使用,但已在做相关调研。

关于用户上传数据集格式上的可拓展性,我们拟采用以下方式:

团队设计的配置文件预期支持基本的图像,文本,视频,音频共4种数据格式,兼容目前常见的一些数据集,并支持一定拓展性。配置文件库将独立于代码进行更新。

用户上传数据集的格式可以使用现有规范进行描述的,用户可以发布Issue,团队根据数据集的活跃度决定是否增加其配置文件,并加入配置文件库中,择机更新。用户也可以分享自己编写的配置文件,经团队审核后更新。

用户上传数据集的格式不能使用现有规范进行描述的,团队将在保证向下兼容的情况下,视情况更新规范以支持新的格式。

本产品\(\alpha\)阶段预期只具备可视化特定数据集类型的功能,\(\beta\)阶段预期支持筛选、上传等交互功能。由于本地部署软件的用户量和活跃度难以统计,因此我们主要对网站访问量和活跃度进行估计和统计。

我们定义一天内在网页中停留超过10分钟的用户为该日活跃用户,限于数据集可视化的受众面较为狭窄,我们初步预估\(\alpha\)阶段日活跃用户为20人,\(\beta\)阶段日活跃用户为40人。

https://bhpan.buaa.edu.cn:443/link/09297EE2B35E9C79F8F5C7197069DF62