Flink 案例分析 - ⎝⎛CodingNote.cc ⎞⎠

Flink 案例分析

2020 年 9 月 23 日
笔记
Flink

Flink程序的执行过程

no-desc	说明	详情
1-env	获取flink的执行环境	批处理：ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); 流处理：StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
2-source	加载数据	1) socketTextStream – 读取Socket 数据流 2) readTextFile() – 逐行读取文本文件获取数据流，每行都返回字符串 3) fromCollection() – 从集合中创建数据流 4) fromElements() – 从给定的数据对象创建数据流，所有数据类型要一致 5) addSource() – 添加新的源函数,例如从kafka 中读取数据，参见读取kafka 数据案例
3-transformation	对加载的数据进行转换
4-sink	对结果进行保存或者打印	1) writeAsText() – 以字符串的形式逐行写入文件，调用每个元素的toString()得到写入的字符串 2) writeAsCsv() – 将元组写出以逗号分隔的csv 文件。注意：只能作用到元组数据上 3) print() – 控制台直接输出结果，调用对象的toString()方法得到输出结果。 4) addSink() – 自定义接收函数。例如将结果保存到kafka 中，参见kafka 案例
5-execute	触发flink程序的执行	代码流程必须符合 source ->transformation -> sink transformation 都是懒执行，需要最后使用env.execute()或者使用 print(),count(),collect() 触发执行

注意

Flink编程不是基于K,V格式的编程，通过某些方式来指定虚拟key

Flink中的tuple最多支持25个元素，每个元素是从0开始

案例1：词频统计

public class SocketWindowWordCountJava {
    public static void main(String[] args) throws Exception {
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

        DataSet<String> text = env.readTextFile("/yourpath/in.txt");

        DataSet<Tuple2<String, Integer>> counts =
                // split up the lines in pairs (2-tuples) containing: (word,1)
                text.flatMap(new Tokenizer())
                        // group by the tuple field "0" and sum up tuple field "1"
                        .groupBy(0)
                        .sum(1);

        String outputPath = "/yourpath/out.txt";
        counts.writeAsCsv(outputPath, "\n", " ");
        env.execute("myflink");
    }

    public static class Tokenizer implements FlatMapFunction<String, Tuple2<String, Integer>> {
        @Override
        public void flatMap(String value, Collector<Tuple2<String, Integer>> out) {
            String[] tokens = value.split(" ");
            // emit the pairs
            for (String token : tokens) {
                if (token.length() > 0) {
                    out.collect(new Tuple2<String, Integer>(token, 1));
                }
            }
        }
    }
}

参考

//blog.csdn.net/qq_40929921/article/details/99603150

Tags: Flink

Previous post

华为手机芯片能撑多久？郭平：每年消耗几亿支还在寻找办法

Next post

xmppmini 项目详解：一步一步从原理跟我学实用 xmpp 技术开发 3.第一句消息的解码及解码的原理