Fast-and-General-Data-Processing-on-Large-Clusters
Fast-and-General-Data-Processing-on-Large-Clusters copied to clipboard

Published 20 hours ago •

→

Metadata

Matei Alexandru Zaharia博士论文的翻译-An Architecture for Fast and General Data Processing on Large Clusters

Readme
Issues

Fast-and-General-Data-Processing-on-Large-Clusters

本文为Matei Alexandru Zaharia博士毕业论文的翻译，该论文探讨了spark中rdd、shark、d-stream的实现原理、架构以及其优缺点,论文原文为：An Architecture for Fast and General Data Processing on Large Clusters

论文目录如下：

1 综述
- 专业系统的缺点
- 弹性分布式数据集（RDD）
- RDD上实现的模型
- 结论
2 弹性分布式数据集
- 介绍
- rdd抽象
- spark接口
- rdd表示
- 实现
- 评价
- 讨论
3 建立在rdd上的模型
- 介绍
- 实现其它基于rdd的模型的技术
- rdd上的sql（已经过时）
- 实现
- 性能
- 联合复杂分析和sql
4 离散化数据流
- 介绍
- 目标和背景
- 离散化数据流(D-Streams)
- 系统架构
- 错误恢复
- 评价
5 rdd通用性
- 介绍
- 表达视角
- 系统视角
- 限制和扩展
6 总结

← Metadata

16

Stars

10

Forks

Watchers

Owner

Metadata

Matei Alexandru Zaharia博士论文的翻译-An Architecture for Fast and General Data Processing on Large Clusters