Back
Featured image of post flink学习资料整理

flink学习资料整理

flink

外部基础资料

  1. 不一样的Flink入门教程
  2. Flink从入门到入土(详细教程)
  3. flink中文文档
  4. Streaming 102: The world beyond batch

使用大数据产品的优缺点

  1. 优点
    1. 数据量PB级别,关系型数据库无法处理
    2. 支持非结构化数据
  2. 缺点
    1. 不支持事物
    2. 处理时间不可预估
    3. 不支持索引
    4. 序列化扫描

名词解释

  1. OLAP: Online AnalyticalProcessing
  2. MPP: Massively Parallel Processing
  3. Ad Hoc: 即时查询,是在发出查询之前无法确定的查询

flink概念

  1. 处理时间:处理时间是指执行相应 算子操作的机器的系统时间。
  2. 事件时间:事件时间是每个事件在其生产设备上发生的时间
  3. 摄取时间:摄取时间是事件进入Flink的时间
  4. 有边界: 无边界加上条件就是有边界(比如截取某个时间段的数据)
  5. 无边界: 无任何限制条件就是无边界
  6. 时间窗口(TimeWindows):按照时间窗口进行聚合,比如上面所讲得攥着一个小时的数据处理一次。
  7. 计数窗口(CountWindows):按照指定的条数来进行聚合,比如每来了10条数据处理一次
  8. 有状态: 执行依赖上一次的计算结果
  9. 无状态: 执行不依赖上一次的计算结果
  10. 精确一次性: 有且只有一次
  11. Transform: 转换因子+转换算子

函数

  1. map
  2. RichMap
  3. filter
  4. keyBy==group by
  5. shuffle
  6. split
  7. select
  8. connect
  9. Operator
  10. reduce:合并当前的元素和上次聚合的结果,产生一个新的值
  11. process:如果想要处理过程中获取环境相关信息
  12. Sink:表示将处理完的数据发送到指定的存储系统的输出操作

worldcount

参考Flink在Mac OS X上的安装与启动