批处理和流处理

  • 2020-12-25
  • 浏览 (85)

批处理

  • 批处理主要操作大容量静态数据集,并在计算过程完成后返回结果。

    可以认为,处理的是用同一个固定时间间隔分组的数据点集合。批处理模式中使用的数据集通常符合下列特征:

    • 有界:批处理数据集代表数据的有限集合
    • 持久:数据通常始终存储在某种类型的持久存储位置中
    • 大量:批处理操作通常是处理极为海量数据集的唯一方法

流处理

  • 流数据可以对对随时进入系统的数据进行计算。流处理方式无需针对整个数据集执行操作,而是对通过系统传输的每个数据执行操作。流处理中的数据集是 “无边界 ” 的, 这就产生了集合重要的影响:
    • 可以处理几乎无限量的数据,但同一时间只能处理一条数据,不同记录间只维持最少量的状态
    • 处理工作是基于事件的,除非明确停止否则没有 “尽头”
    • 处理结果可用,并会随着新数据的抵达继续更新。
正文到此结束