Flink_基础架构信息

RX_3 / 2024-10-22 / 原文

几个重要的特新

1、Checkpoint,这个机制保证了Flink分布式的语义一致

2、有关Flink分布式,流处理的话题

  似乎在大数据的领域中,做离线数据处理是很平常的事情

  流、批处理很适合这种生产环境

  批处理的特点是有界、持久、大量,批处理非常适合需要访问全套记录才能完成的计算工作,一般用于离线统计。

  流处理的特点是无界、实时,流处理方式无需针对整个数据集执行操作,而是对通过系统传输的每个数据项执行操作,一般用于实时统计。

3.算子

  这是flink中的一些基本运算单元,可以理解为函数模块,大致分为以下的模块

    a.数据读取
    b.数据转换
    c.数据输出
  其中数据转换是重点部分,大致上可以实现类似数据的左联右联,map对象映射
4.有关实时性(时延)
  实时性也是一个被重点提及的部分。
  使用了类似网络协议的动态窗口机制
  时间点被严格分为、数据产生、数据进入flink、数据输出