外部基础资料
- 不一样的Flink入门教程
- Flink从入门到入土(详细教程)
- flink中文文档
- Streaming 102: The world beyond batch
使用大数据产品的优缺点
- 优点
- 数据量PB级别,关系型数据库无法处理
- 支持非结构化数据
- 缺点
- 不支持事物
- 处理时间不可预估
- 不支持索引
- 序列化扫描
名词解释
- OLAP: Online AnalyticalProcessing
- MPP: Massively Parallel Processing
- Ad Hoc: 即时查询,是在发出查询之前无法确定的查询
flink概念
- 处理时间:处理时间是指执行相应 算子操作的机器的系统时间。
- 事件时间:事件时间是每个事件在其生产设备上发生的时间
- 摄取时间:摄取时间是事件进入Flink的时间
- 有边界: 无边界加上条件就是有边界(比如截取某个时间段的数据)
- 无边界: 无任何限制条件就是无边界
- 时间窗口(TimeWindows):按照时间窗口进行聚合,比如上面所讲得攥着一个小时的数据处理一次。
- 计数窗口(CountWindows):按照指定的条数来进行聚合,比如每来了10条数据处理一次
- 有状态: 执行依赖上一次的计算结果
- 无状态: 执行不依赖上一次的计算结果
- 精确一次性: 有且只有一次
- Transform: 转换因子+转换算子
函数
- map
- RichMap
- filter
- keyBy==group by
- shuffle
- split
- select
- connect
- Operator
- reduce:合并当前的元素和上次聚合的结果,产生一个新的值
- process:如果想要处理过程中获取环境相关信息
- Sink:表示将处理完的数据发送到指定的存储系统的输出操作
worldcount
参考Flink在Mac OS X上的安装与启动