你在数据预处理上花费的时间，是否比机器学习还要多？

2021-11-09 22:55:25

nuts-ml 是一个新的 python 数据预处理库，专门针对视觉领域的 gpu 深度学习应用。它以独立、可复用的单元模块的形式，提供主流数据预处理函数。前者便是“nuts-ml” 里的 “nuts”，开发者可自由将其排列组合，创建高效、可读性强、方便修改的数据流。

对于机器学习项目，数据预处理都是基础。相比实际的机器学习，开发者花在数据预处理上的时间往往还要更多。有的数据预处理任务只针对特定问题，但大多数，比如把数据分割为训练和测试组、给样本分层和创建 mini-batch 都是通用的。下面的 canonical 流水线展示了深度学习视觉任务常见的处理步骤。

reader 读取文本文件、 excel 或 pandas 表格中的样本数据。接下来 splitter 把数据分割为训练、验证和测试集，如需要再进行分层。一般情况下，并不是所有图像数据都能载入内存，于是，我们需要 loader 按需导入。这些图像一般由 transformer 进行处理，以修改尺寸、截图或做其它调整。另外，为增加训练集， augmenter 会随机选取图像进行扩充（比如翻转），以合成额外图像。基于 gpu 的高效率的机器学习，需要用 batcher 把图像和标签数据编成 mini-batch。随后导入 network 进行训练或者推理。最后，为追踪训练过程，一般我们会用 logger 来把训练损失或精度记录到 log 文件。

但如果，深度学习框架的 api 没有提供图像格式、数据扩充等预处理功能呢？

扩展 keras 这样的库并不是一个轻松的活儿。常见的解决方案是简单粗暴地（重新）实现所需功能。但实现一个强鲁棒性的数据流水线，能按需加载、转换、扩充、处理图像仍然很具挑战性，并且有很高时间成本。

这便要 nuts-ml 上场了。

上面的示例中，训练图像被扩充，像素值被重新分配，样本在创建训练网络的 batch 之前被打乱顺序。最后，batch 的平均训练损失被分批计算、打印出来。组成该数据流的 nuts 可如下定义：

重分配（rerange）是一个把 [0, 255] 区间的像素值转化为 [0, 1] 区间的图像转换过程。数据扩充生成用于训练的额外图像。build_batch 创建由图像和 one-hot 编码的类标签组成的 batch。神经网络把现有 keras 模型封装为一个 nut，后者能插入进流水线。该示例的完整代码在这里。

nuts-ml 的作用，是帮助开发者在深度学习任务重更快地创建数据预处理流水线。产生的代码根据可读性，修改后还可试验不同的预处理方案。针对特定任务的函数可方便地作为 nuts 实现并添加进数据流。下面就是一个调整图像亮度的简单 nut：

nuts-ml 本身并不能进行神经网络的训练，而是借助于 keras、theano 等已有的库来实现。任何能接受 numpy 阵列的 mini-batch 用来训练、推理的机器学习库，都与它兼容。

====================================分割线================================

本文作者：三川

你在数据预处理上花费的时间，是否比机器学习还要多？

继续阅读

来自python的【条件控制/语句循环/break/continue/else/pass】一、条件控制二、语句循环

无法解析的外部符号 wmain，该符号在函数 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入