Flink 的分布式缓存使用步骤详解

Flink提供了一个类似于Hadoop的分布式缓存，让并行运行实例的函数可以在本地访问。这个功能可以被使用来分享外部静态的数据，例如：机器学习的逻辑回归模型等！

缓存的使用流程：

使用ExecutionEnvironment实例对本地的或者远程的文件（例如：HDFS上的文件）,为缓存文件指定一个名字注册该缓存文件！当程序执行时候，Flink会自动将复制文件或者目录到所有worker节点的本地文件系统中，函数可以根据名字去该节点的本地文件系统中检索该文件！

和广播变量的区别：

-广播变量广播的是程序中的变量(DataSet)数据，分布式缓存广播的是文件

-广播变量将数据广播到各个TaskManager的内存中，分布式缓存广播到各个TaskManager的本地文件系统

用法

使用Flink运行时环境的 registerCachedFile 注册一个分布式缓存

在操作中，使用 getRuntimeContext.getDistributedCache.getFile ( 文件名 )获取分布式缓存

示例

创建一个成绩数据集

List( (1, "语文", 50),(2, "数学", 70), (3, "英文", 86))

请通过分布式缓存获取到学生姓名，将数据转换为

List( ("张三", "语文", 50),("李四", "数学", 70), ("王五", "英文", 86))

注：资料\测试数据源\distribute_cache_student 文件保存了学生ID以及学生姓名

操作步骤

1. 将 distribute_cache_student 文件上传到HDFS / 目录下

2. 获取批处理运行环境

3. 创建成绩数据集

4. 对成绩数据集进行map转换，将（学生ID, 学科, 分数）转换为（学生姓名，学科，分数）

RichMapFunction 的 open 方法中，获取分布式缓存数据
在 map 方法中进行转换

5. 实现 open 方法

使用 getRuntimeContext.getDistributedCache.getFile 获取分布式缓存文件
使用 Scala.fromFile 读取文件，并获取行
将文本转换为元组（学生ID，学生姓名），再转换为List

6. 实现 map 方法

从分布式缓存中根据学生ID过滤出来学生
获取学生姓名
构建最终结果元组

7. 打印测试

参考代码

/**
 * 分布式缓存
 */
public class DistributedCacheDemo {
    public static void main(String[] args) throws Exception {
        // Env
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

        // 准备分数信息数据集
        DataSource<Tuple3<Integer, String, Integer>> scoreInfoDataSet = env.fromElements(
                Tuple3.of(1, "数据结构", 99),
                Tuple3.of(2, "英语", 100),
                Tuple3.of(3, "C++", 96),
                Tuple3.of(5, "Java", 97),
                Tuple3.of(3, "Scala", 100)
        );

        /*
        分布式缓存和广播变量的使用步骤基本差不多，有一点不同
        1. 设置它, 使用env.registerCachedFile来注册分布式缓存.
        2. 使用它, 在算子内部调用getRuntimeContext.getDistributedCache.getFile(File)来获取分布式缓存的文件
         */

        // 1. 注册分布式缓存
        env.registerCachedFile("data/input/distributed_student.txt", "student");

        // 通过map方法来组合数据和获取分布式缓存文件内容
        MapOperator<Tuple3<Integer, String, Integer>, Tuple3<String, String, Integer>> result = scoreInfoDataSet.map(new RichMapFunction<Tuple3<Integer, String, Integer>, Tuple3<String, String, Integer>>() {
            // 定义一个map变量来接收学生信息对象
            final Map<Integer, String> map = new HashMap<Integer, String>();

            // 通过open方法来获得分布式缓存的文件, 并将数据放入map中
            @Override
            public void open(Configuration parameters) throws Exception {
                super.open(parameters);
                File distributedFile = getRuntimeContext().getDistributedCache().getFile("student");
                BufferedReader bufferedReader = new BufferedReader(new FileReader(distributedFile));
                // Lambda方式
//                bufferedReader.lines().forEach((String line) -> {
//                    String[] elements = line.split(",");
//                    map.put(Integer.parseInt(elements[0]), elements[1]);
//                });

                // 普通方式
                String line = null;
                while ((line = bufferedReader.readLine()) != null) {
                    String[] elements = line.split(",");
                    map.put(Integer.parseInt(elements[0]), elements[1]);
                }
            }

            @Override
            public Tuple3<String, String, Integer> map(Tuple3<Integer, String, Integer> value) throws Exception {
                return Tuple3.of(map.getOrDefault(value.f0, "未知学生姓名"), value.f1, value.f2);
            }
        });

        result.print();
    }
}

Flink 的分布式缓存使用步骤详解

继续阅读

Java链表基本实现

docker_容器间的链接 link

枫笛BlinkMeB2领夹式麦克风独有的全视角触摸彩屏，让这款麦克风增色不少，配合自研的麦克风系统、接收器系统，让这款麦

「大数据」大数据第四代 Flink 从概念到实战

【分布式缓存之JBoss Cache】

Flink DataStream API-概念、模式、作业流程和程序

提交Flink作业及所见问题总结

10分钟入门Flink——了解Flink

10分钟入门Flink--架构和原理

10分钟入门Flink--安装

Flink DataStream API-数据源、数据转换、数据输出

分布式缓存Redis之数据类型

发现身边很多外贸人🈶️被工具支配的恐惧领英职场退出中国，明显对外贸🈚️半毛钱影响搭上时代红利，享受AIGC带来的进步吧😎

华为发布蓝牙和Wi-Fi的升级版Nearlink。外国网友炸裂：中国特色蓝牙#Huawei今天发布了名为#NearLin

Flink Runtime 四层 Graph 详解

构建分布式缓存系统：Java与MySQL实现快速读写