模型手把手系列开篇之 python、spark 和java 生成TFrecord

书接上文，我们的图算法十篇之图机器学习系列文章总结已经完结, 接下来我们将开始从零开始一点一点的用 tensorflow 实现一些经典的模型，除了和大家一起学习之外，也是为了可以帮助自己对过去学习过的知识做一些系统化的总结与回顾，进行查漏补缺。

接下来，文章里的很多代码，我们会使用 notebook远程访问pyspark集群, 算法工具神器重磅推荐文章里介绍的 notebook 工具进行介绍，而部分 java 与 scala spark 代码则均是目前我在自己 mac 上搭建的单机版环境编写的，如有任何环境问题，欢迎在算法全栈之路的公众号上和我联系～

模型手把手系列计划主要围着 tensorflow 实现模型的流程展开，计划中会涵盖训练数据的生成、数据的读入、特征的处理、模型结构的搭建、损失函数的设计、序列建模、经典模型的实现等模块展开，中间很多内容可能我也会去查找很多资料与源码，希望能够真正起到总结自己学习过的知识、对各位算法工程师们在工作学习面试等过程中有所帮助的作用吧！

闲言少叙，本文主要先从模型训练的上游数据生成开始讲起，主要介绍使用 python 、spark( pyspark/scala spark ) 、Java 、tfrecorder 等这 4 种方式生成 tfrecord 的过程以及使用 python 解码 tfrecord文件的过程，下面让我们开始正文吧～ go go go !!!

(1) tensorflow 模型训练数据来源简介

书接上文，我们知道：tensorflow 训练所需要的上游数据，在数据量比较小的时候，我们可以用 python 的 pandas 或则 numpy 等方法直接在单机PC上读取数据然后喂给模型，这种模型的文件类型可以是本地的 txt 或则 csv 等格式。当数据量比较大的时候，我们通常将数据放在集群 hdfs 上，也可以保存成 csv 或 txt 的格式，然后训练的时候去进行分布式并行读取。

TFRecords 是 TensorFlow 官方推荐和支持的二进制文件格式，其对于 tensorflow 非常友好，其对于特征列多的数据存储占用空间更小。当数据量特别大，且 io 读取数据成为模型训练速度的瓶颈、甚至有时候 gpu 的利用率时高时低的时候，这个时候我们可以将我们的数据保存成 tfrecord 的格式。这同时也对应着 tfrecord 的一些优点：读取速度快、占用空间少、支持并行读取等。这里我们就不再对 tfrecord 文件生成的理论进行展开说明了，感兴趣的同学可以下去自己搜索资料哈～

虽然本文是介绍 tfrecord 的数据格式，但是我们选用模型训练数据的数据格式的时候，也不一定非要运用 tfrecord 。很多时候我们训练模型数据量不是很大，并且单机内存完全可以 hold住所有的数据，而我们对模型的训练速度也没有那么高要求，这个时候普通的 csv 和 txt 等格式简单直接，便于查看数据，也可以作为我们的首选～

本文主要是介绍多种方式生成tfrecord 格式的数据，本身就是偏向于工程的，理论性没那么强，我们直接开始看代码吧～

（2）代码时光

本文我们主要介绍使用 python 、spark( pyspark/scala spark ) 、Java 、tfrecorder 等这 4 种方式生成 tfrecord 的过程以及使用python 解码 tfrecord文件的过程，下面就让我们逐一开始介绍吧～

因为本文的代码涉及多种语言，这里我们对各个模块分别导包，可能有冗余的地方，读者可以自行进行区分，对于代码的可读性应该无影响。

（2.1）数据准备

看代码吧～

@ 欢迎关注作者公众号 算法全栈之路

import pandas as pd
raw_df = pd.DataFrame([[28,12.1,'male',"1#2",1], [30,8.7, 'female',"3#4#5",0], [32,24.6,'female',"6#7#8#9#10",1]], columns=['age', 'price','sex','click_list','label'])
print(raw_df)
raw_df.to_csv("./raw_df.csv",sep='\t',index=False,header=None)

这里数据类型我们分别选择了搜广推算法用的最多的 int 型、float型、categroy 型、seq 序列类型特征以及 label 这几列数据用来生成 tfrecord，如果有其他类型的特征同理可得。

（2.2） python生成 tfrecord 数据

@ 欢迎关注作者公众号 算法全栈之路

# 文件路径 
intput_csv_file = "./raw_df.csv" 
intput_csv_file = "./py_tf_record" 

# 生成整数型的属性 
def _int64_feature(value): 
    return tf.train.Feature(int64_list=tf.train.Int64List(value=[value])) 
# 生成浮点数类型的属性 
def _float_feature(value): 
    return tf.train.Feature(float_list=tf.train.FloatList(value=[value])) 
# 生成字符串型的属性 
def _bytes_feature(value): 
    return tf.train.Feature(bytes_list=tf.train.BytesList(value=[value])) 
# 生成序列类型的特征
def _int64list_feature(value_list):
    return tf.train.Feature(int64_list=tf.train.Int64List(value=value_list))


def generate_tf_records(intput_file_path,out_file_path):
    
    with codecs.open("./raw_df.csv", "r", "utf-8") as raw_file:
        line_list=raw_file.readlines()
        
    print("line_list_len:",len(line_list))
    
    writer = tf.compat.v1.python_io.TFRecordWriter(out_file_path)
    for line in tqdm.tqdm(line_list):
        age = int(line.split("\t")[0])
        price = (float)(line.split("\t")[1])
        gender = line.split("\t")[2]
        click_list =  list(map(int, line.split("\t")[3].split("#")))
        label = int(line.split("\t")[4])
            
        example = tf.train.Example(features=tf.train.Features(
            feature={
                "age": _int64_feature(int(age)),
                "price": _float_feature(float(price)),
                "gender": _bytes_feature(gender.encode()),
                "click_list": _int64list_feature(click_list),
                "label": _int64_feature(label)
            }))
        # 写入一条tfrecord
        writer.write(example.SerializeToString())
    writer.close()

generate_tf_records(intput_csv_file,intput_csv_file)

这里，我们选择了4种极具典型的、搜广推算法常用的特征类型来进行说明。tfrecord 里有 example 和 feature 的概念： example 是 protocol buffer 数据标准的实现，我们可以认为每个example 可以是一条样本（当然也可以有多条样本）。一个 example 消息体中包含了一系列的 features ，而 features 里又包含有 featuer, 每一个feature 是一个 dict 形式的数据结构。

其中要注意的是： click_list 这个表示的是用户的点击序列特征，长度对于每个用户可能不同。我们可以在这里传入一个列表封装到 tfrecord 对象里去，然后让 tensorflow 直接读取序列特征。当然，我们也可以这里把列表拼接成字符串，然后 tensorflow 读入进去之后再去split 得到序列，只是模型会更耗费时间而已。

另外需要注意的是 value= 后面接的是数组，也可以是单个元素。如果你写的代码有报数据格式问题的话，这里可能需要重点看下然后作出调整。

这里要推荐一下 codecs 这个 python 包，其对于 python读写文件格式的编码转换非常友好，当读写数据格式兼容会出现 bug 的时候，强烈推荐 codecs 哦。

（2.3） spark 生成 tfrecord 数据( scala spark + pyspark）

书接上文，在很多时候数据量比较少的话，我们可以用上面介绍的单机版 python 来生成 tfrecord 文件，但是我们上面也介绍了：数据量小的时候，内存足够，用啥tfrecocrd啊，直接上 csv等不香吗？数据量大的时候，就得靠我们这里介绍的 spark 来生成 tfrecord 了，亲测速度快了十数倍不止！

那我们上面介绍的 python 单机版生成tfrecord 就无用武之地了吗？当然不是，天生它才必有用！我们可以在开发代码并进行流程测试的时候用单机版python 去生成测试，保证整个开发流程的流畅，最后要大规模跑数进行实验的时候，改用本小节介绍的 spark版本的方法来提高效率，两者结合简直 perfert !!!

（2.3.1） scala spark 生成 tfrecord

因为 scala 和 java 均是跑在虚拟机jvm 的语言，在 maven 工程里是可以混合编译互相调用的。要想使用 spark 直接生成 tfrecord ，需要用到 google 提供的 spark 和 tensorflow 交互的包。

在 pom.xml 里导入这个包就可以

@ 欢迎关注作者公众号 算法全栈之路

        <dependency>
            <groupId>org.tensorflow</groupId>
            <artifactId>spark-tensorflow-connector_2.11</artifactId>
            <version>1.15.0</version>
        </dependency>

然后下面是我提供了一个基于scala spark 生成 tfrecord 的demo ，中间的环境是我单机版的spark ，可能你用的时候这里需要微调，非常简单，自己去适配下吧～

@ 欢迎关注作者公众号 算法全栈之路

package zmt_demo.model_sbs

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._

object Demo {

  def main(args: Array[String]) {
    val sparkConf = new SparkConf()
      // .registerKryoClasses(Array(classOf[XgbScoreRow]))
      // 调节长数据本地化时间
      .setMaster("local[*]")
      .set("spark.locality.wait", "10")
      .set("spark.sql.orc.enabled", "false")

    val sparkSession = SparkSession.builder()
      .appName("scala spark generate tfrecord")
      .config(sparkConf)
      .config("spark.kryoserializer.buffer.max", "1024m")
      .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
      .config("hive.exec.dynamic.partition.mode", "nonstrict")
      .enableHiveSupport()
      .getOrCreate()

    val demo_df = sparkSession.read
      .option("inferSchema", "false") //是否自动推到内容的类型
      .option("delimiter","\t")  //分隔符，默认为 ,
      .csv("/Users/dhl/Desktop/notebook_all/模型手把手系列/raw_df.csv")
      .toDF("age","price","sex","click_list","label")
      .withColumn("click_list",split(col("click_list"),"#"))

    demo_df.printSchema()
    demo_df.show(2,false)

    val savedPath = "/Users/dhl/Desktop/notebook_all/模型手把手系列/scala_spark_tfcord"

    demo_df.write
      .mode("overwrite")
      .format("tfrecords")
      .option("recordType", "Example")
      .save(savedPath)
  }
}

使用单机版的 spark，我们在自己 mac 就能进行业务流程代码的调试哈，不用在链接spark集群就可以完成 spark 代码的调试，当然数据是需要我们本地伪造的～

对于一些使用spark RDD 接口较多的同学，可以先将 RDD 转 dataframe ，然后在生成tfrecord 哦！

（2.3.2） pyspark 生成 tfrecord

目前在国内大厂，还是有很多公司的算法团队使用 pyspark 非常频繁，这里我们也提供下 pyspark 版本生成 tfrecord 的代码吧。

中间在用 spark-submit 提交 pyspark 脚本任务的时候，需要在最后参数列表里加上

--jars /Users/dhl/Desktop/notebook_all//spark-tensorflow-connector_2.11-1.15.0.jar

其实作用和 maven 类似，和上面一样引入我们的 Jar 包。导完包后，就可以写代码提spark job 任务了。

@ 欢迎关注作者公众号 算法全栈之路

import os
import sys
import findspark
findspark.init()
import os.path as path
import importlib

from pyspark import StorageLevel
from pyspark.sql import SparkSession
from pyspark.sql.types import *
from py4j.protocol import Py4JJavaError
from pyspark.sql import functions as fun
from pyspark.sql.functions import col
from pyspark.sql import HiveContext
from pyspark.sql.functions import *
from pyspark.sql.functions import lit

import warnings 
warnings.filterwarnings("ignore")
# spark config setup
spark = SparkSession.builder.appName("pyspark-app") \
    .config("spark.submit.deployMode", "client")\
    .config('spark.yarn.queue', 'idm-prod')\
    .config("spark.kryoserializer.buffer.max", "1024m") \
    .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") \
    .config("hive.exec.dynamic.partition.mode", "nonstrict") \
    .enableHiveSupport()\
    .getOrCreate()

path="./pyspark_tfrecord"

pdf_values=raw_df.values.tolist()
pdf_columns=raw_df.columns.tolist()
spark_df = spark.createDataFrame(pdf_values,pdf_columns).persist(StorageLevel.MEMORY_AND_DISK)

spark_df.write.format("tfrecords").option("recordType", "Example").save(path)

从代码里可以看到，我们这里是使用 python 的pandas dataframe直接转的 pyspark 的 dataframe ，然后由 spark 的 dataframe 直接保存成 tfrecord 的格式。

其中需要注意的一点是： option("recordType", "Example") 这个地方的参数。当然，对于序列特征，我们也可以使用 SequenceExample 这个参数来生成。

但是对于序列特征，我们只要在特征列的位置放入列表元素就可以，tensorflow 读入 list 数据之后再去转序列特征处理也是可以的。

这里和上面一样，这里的 pyspark 方法也可以和上面小节介绍的 python方法相互结合使用，达到 pyspark + python 包来生成 tfrecord 的目的，非常优秀！！！

这里我就不在去具体实现了哈，但是 pyspark + python 自定义函数与 scala + java 自定义函数的联合使用，可以说是灵活开发的典范之作了！

（2.4） java 生成 tfrecord 数据

书接上文，我们说了 Java 和 scala spark 代码可以混合编译，然后进行互相灵活调用的，我们这里介绍的 Java 版本的生成tfrecord 的函数与方法，也是可以结合上面介绍的 scala spark 方法，在 spark 的 map算子调用这里介绍的方法，达到 spark + java相结合的方法来生成 tfrecord 格式文件，对于广大的 javaer 们，算是非常友好了。

要想用 Java 生成 tfrecord 数据，需要导入下面这两个jar 包，其中一个和上面要用到的重复。

@ 欢迎关注作者公众号 算法全栈之路

       <dependency>
            <groupId>org.tensorflow</groupId>
            <artifactId>spark-tensorflow-connector_2.11</artifactId>
            <version>1.15.0</version>
        </dependency>

        <dependency>
            <groupId>org.tensorflow</groupId>
            <artifactId>tensorflow</artifactId>
            <version>1.5.0</version>
        </dependency>

Java代码嘛，没说的，就是包多！！导入就是了。

@ 欢迎关注作者公众号 算法全栈之路

package demo;

import java.io.*;
import java.util.*;
import org.tensorflow.example.Example;
import org.tensorflow.example.Feature;
import org.tensorflow.example.Features;
import org.tensorflow.example.Int64List;
import org.tensorflow.example.*;
import org.tensorflow.spark.shaded.com.google.protobuf.ByteString;
import org.tensorflow.spark.shaded.org.tensorflow.hadoop.util.TFRecordWriter;


public class Generate_TFrecord_Demo {

    public static void main(String[] args) throws IOException {

        TFRecordWriter tf_write = new TFRecordWriter(new DataOutputStream(new FileOutputStream("/Users/dhl/Desktop/notebook_all/模型手把手系列/java_tfcord")));

        Map<String, Object> featureMap = new HashMap<>();
        featureMap.put("age", "20");
        featureMap.put("price", "15.5");
        featureMap.put("sex", "male");
        featureMap.put("click_list", Arrays.asList("1", "2", "3"));
        featureMap.put("label", "1");

        Map<String, Feature> inputFeatureMap = new HashMap<String, Feature>();

        for (String key : featureMap.keySet()) {
            Feature feature = null;

            if (key.equals("sex")) {
                BytesList.Builder byteListBuilder = BytesList.newBuilder();
                ByteString bytes = ByteString.copyFromUtf8((String) featureMap.get(key));
                byteListBuilder.addValue(bytes);
                feature = Feature.newBuilder().setBytesList(byteListBuilder.build()).build();
            } else if (key.equals("age")) {
                Int64List.Builder int64ListBuilder = Int64List.newBuilder();
                int64ListBuilder.addValue(Integer.parseInt(featureMap.get(key).toString()));
                feature = Feature.newBuilder().setInt64List(int64ListBuilder.build()).build();
            } else if (key.equals("price")) {
                FloatList.Builder floatListBuilder = FloatList.newBuilder();
                floatListBuilder.addValue(Float.parseFloat(featureMap.get(key).toString()));
                feature = Feature.newBuilder().setFloatList(floatListBuilder.build()).build();
            } else if (key.equals("click_list")) {
                List<String> stringList = (List<String>) featureMap.get(key);
                List<ByteString> byteStrings = new ArrayList<ByteString>();
                for (String s : stringList) {
                    byteStrings.add(ByteString.copyFromUtf8(s));
                }
                BytesList.Builder byteListBuilder = BytesList.newBuilder();
                byteListBuilder.addAllValue(byteStrings);
                feature = Feature.newBuilder().setBytesList(byteListBuilder.build()).build();
            }

            if (feature != null) {
                inputFeatureMap.put(key, feature);
            }
        }

        Features features = Features.newBuilder().putAllFeature(inputFeatureMap).build();
        Example example = Example.newBuilder().setFeatures(features).build();
        System.out.println(example.getFeatures());

        // java 版本 tfrecord 生成与写入
        tf_write.write(example.toByteArray());
    }
}

这里，我们把文件写入了我自己本机的路径，也选择了几个常用的特征类型来使用 Java生成tfrecord 文件，自己去按需求更改吧。

（2.5）python 的 tfrecorder 生成tfrecord

在我最后开始写小作文做总结的时候，偶然发现了这个python 包： tfrecorder ，我们可以使用pip install tfrecorder来进行安装。

虽然也是python 单机版的包，但是这个包可以不用写代码显式的打开 csv 文件进行文件转换，非常强大了！

下面的两种方式均是使用google 开源的tfrecorder 这个包工具的。

闲言少叙，看代码吧～

(2.5.1) csv 直接转tfrecord

实现的功能如题，单机版python神器啊！

@ 欢迎关注作者公众号 算法全栈之路

import tfrecorder

tfrecorder.create_tfrecords(
    input_data='./raw_df.csv',
    output_dir='./csv_tfrecord')

(2.5.2) pandas dataframe 直接转 tfrecord

@ 欢迎关注作者公众号 算法全栈之路

import pandas as pd
import tfrecorder

raw_df.tensorflow.to_tfr(output_dir='./pd_tfrecord')

这个工具有一个坑，就是安装的时候依赖比较多，会出现包冲突的情况，很难缠。看说明好像 google 已经放弃维护这个包了，最后更新时间在2020年？

不管了，上面介绍的方法足够多，总有一种姿势可以满足你。

（2.6）解码 tfrecord 文件

这里要重点介绍下：因为 tfrecord 是二进制文件，我们生成了之后如何查看里面的数据结构呢？

简单！用下面的方法就可以了，看代码～

@ 欢迎关注作者公众号 算法全栈之路

import tensorflow.compat.v1 as tf

def getTFRecordFormat(files):
    with tf.Session() as sess:
        # 加载TFRecord数据
        ds = tf.data.TFRecordDataset(files)
        ds = ds.batch(1)
        ds = ds.prefetch(buffer_size=2)
        iterator = ds.make_one_shot_iterator()
        # 为了加快速度，仅仅简单拿一组数据看下结构
        batch_data = iterator.get_next()
        while True:
                res = sess.run(batch_data)
                for serialized_example in res:
                    example_proto = tf.train.Example.FromString(serialized_example)
                    features = example_proto.features

                    for key in features.feature:
                        feature = features.feature[key]
                        if len(feature.bytes_list.value) > 0:
                            ftype = 'bytes_list'
                            fvalue = feature.bytes_list.value

                        if len(feature.float_list.value) > 0:
                            ftype = 'float_list'
                            fvalue = feature.float_list.value

                        if len(feature.int64_list.value) > 0:
                            ftype = 'int64_list'
                            fvalue = feature.int64_list.value
                        result = '{0} : {1} {2} {3}'.format(key, ftype, len(fvalue),fvalue)
                        print(result)
                    break
                    print("*"*20)
                break

# getTFRecordFormat('./pd_tfrecord')
getTFRecordFormat('./py_tf_record')
# getTFRecordFormat('./pyspark_tfrecord/part-r-00007')
# getTFRecordFormat('./scala_spark_tfcord/part-r-00000')
# getTFRecordFormat('./java_tfcord')

注意，这里我们使用的是 tensorflow 1.x 的版本～

最后 tfrecord文件解析出来在我们的 demo 式例中长这个样子：

到这里，模型手把手系列开篇之 python、spark 和java 生成TFrecord 的全文就写完了。在本文里，我们提供了众多生成 tfrecord 的方法与工具，代码均可以完美跑成功，总有一款适合你，希望可以对你有参考作用～

码字不易，觉得有收获就动动小手转载一下吧，你的支持是我写下去的最大动力～

更多更全更新内容：算法全栈之路

- END -

模型手把手系列开篇之 python、spark 和java 生成TFrecord

(1) tensorflow 模型训练数据来源简介

（2）代码时光

（2.1）数据准备

（2.2） python生成 tfrecord 数据

（2.3） spark 生成 tfrecord 数据( scala spark + pyspark）

（2.3.1） scala spark 生成 tfrecord

（2.3.2） pyspark 生成 tfrecord

（2.4） java 生成 tfrecord 数据

（2.5）python 的 tfrecorder 生成tfrecord

(2.5.1) csv 直接转tfrecord

(2.5.2) pandas dataframe 直接转 tfrecord

（2.6）解码 tfrecord 文件

继续阅读

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

Cloud Studio初体验

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method

在python中创建excel并写入

模型手把手系列开篇 之 python、spark 和java 生成TFrecord

(1) tensorflow 模型训练数据来源简介

（2）代码时光

（2.1） 数据准备

（2.2） python生成 tfrecord 数据

（2.3） spark 生成 tfrecord 数据( scala spark + pyspark）

（2.3.1） scala spark 生成 tfrecord

（2.3.2） pyspark 生成 tfrecord

（2.4） java 生成 tfrecord 数据

（2.5）python 的 tfrecorder 生成tfrecord

(2.5.1) csv 直接转tfrecord

(2.5.2) pandas dataframe 直接转 tfrecord

（2.6） 解码 tfrecord 文件

继续阅读

模型手把手系列开篇之 python、spark 和java 生成TFrecord

（2.1）数据准备

（2.6）解码 tfrecord 文件