Fast-and-General-Data-Processing-on-Large-Clusters icon indicating copy to clipboard operation
Fast-and-General-Data-Processing-on-Large-Clusters copied to clipboard

Matei Alexandru Zaharia博士论文的翻译-An Architecture for Fast and General Data Processing on Large Clusters

Fast-and-General-Data-Processing-on-Large-Clusters

本文为Matei Alexandru Zaharia博士毕业论文的翻译,该论文探讨了spark中rdd、shark、d-stream的实现原理、架构以及其优缺点,论文原文为:An Architecture for Fast and General Data Processing on Large Clusters

论文目录如下:

  • 1 综述
    • 专业系统的缺点
    • 弹性分布式数据集(RDD)
    • RDD上实现的模型
    • 结论
  • 2 弹性分布式数据集
    • 介绍
    • rdd抽象
    • spark接口
    • rdd表示
    • 实现
    • 评价
    • 讨论
  • 3 建立在rdd上的模型
    • 介绍
    • 实现其它基于rdd的模型的技术
    • rdd上的sql(已经过时)
    • 实现
    • 性能
    • 联合复杂分析和sql
  • 4 离散化数据流
    • 介绍
    • 目标和背景
    • 离散化数据流(D-Streams)
    • 系统架构
    • 错误恢复
    • 评价
  • 5 rdd通用性
    • 介绍
    • 表达视角
    • 系统视角
    • 限制和扩展
  • 6 总结