awesome Paper 阅读记录

以后的 paper 阅读记录都放在这个 issue 下，尽量每篇 paper 都输出一篇笔记或者一段话做总结，优秀、经典的论文要参考这篇文章（一起读 paper ）的方式来阅读。

下面有几个分布式相关的论文列表：

这有个不错的系列：https://www.cnblogs.com/baiboy/p/100p.html
知乎上有个不错的系列：https://zhuanlan.zhihu.com/db-readings
这里还有一个机器学习的经典论文：https://github.com/LuckyZXL2016/Machine-Learning-Papers
分布式系统相关论文：https://www.cnblogs.com/superf0sh/p/5754283.html
读完这100篇论文就能成大数据高手
Readings in Streaming Systems
My Top 10 Deep RL Papers of 2019
分布式系统领域经典论文翻译集、深度探索分布式理论经典论文；
计算机史上最重要的 35 篇论文；
A Distributed Systems Reading List；

分布式系统的一些课程：

Jan 02 '20 02:01 wangzzu

2019 paper 阅读记录：

序号	Paper	Paper阅读完成时间	输出文章	备注
1	Apache Calcite: A Foundational Framework for Optimized Query Processing Over Heterogeneous Data Sources	2019.2
2	Lightweight Asynchronous Snapshots for Distributed Dataflows	2019.10.12	Paper 阅读	Flink Snapshot 算法的文章
3	Real-Time Machine Learning: The Missing Pieces	2019.10.18	Paper 阅读
4	distributed snapshots determining global states of distributed systems	2019.10.30	Paper 阅读	Chandy-Lamport 算法

Jan 02 '20 02:01 wangzzu

2020 paper 阅读记录：

序号	Paper	Paper阅读完成时间
1	Maximizing the Output Rate of Multi-Way Join Queries over Streaming Information Sources
2	Ray: A Distributed Framework for Emerging AI Applications	2020-08-24
3	Delta Lake: High-Performance ACID Table Storage over Cloud Object Stores

Jan 02 '20 02:01 wangzzu

Google 最近 20 年一些论文合集（来自 duanple）

这些优秀论文通常发表在 OSDI、SOSP、SIGMOD、VLDB、Macro、Eurosys、SIGCOMM、CIDR、SIGARCH、SIGCOMM 等顶级期刊和会议上。

Google 业务的起源相关的论文

The anatomy of a large-scale hypertextual Web search engine：1998，Google 搜索理论基础的原始论文；
WEBSEARCH FOR A PLANET: THE GOOGLECLUSTER ARCHITECTURE：Google 采用分布式解决问题的缘由，出发点是性价比，更深入的思考是传统的架构已经无法解决未来的问题；
The Google File System：大名鼎鼎的 GFS 论文，今天 Google 内部已经进化到第二代GFS：Colossus；
MapReduce: Simplified Data Processing on Large Clusters；
Bigtable: A Distributed Storage System for Structured Data：大名鼎鼎的 BigTable 论文，NoSQL 的起源；

基础设施相关的论文

The Chubby lock service for loosely-coupled distributed systems：Chubby 系统的实现，它 Google 内部分布式锁服务，开源系统常用的是 ZooKeeper；
Borg、Omega、kubernetes：Google 内部的资源管理系统（Borg, Omega, and Kubernetes），kubernetes 已经开源，并且基本上统一了云上的调度系统；
CPI2: CPU performance isolation for shared compute clusters：Google 在离线在线混部上做得一些尝试；
Google-Wide Profiling: A Continuous Profiling Infrastructure for Data Centers：Google 分布式 profiling 基础设施；
Dapper, a Large-Scale Distributed Systems Tracing Infrastructure：Google 分布式 Tracing 基础设施；
B4: Experience with a Globally-Deployed Software Defined WAN：Google 全球数据中心网络改造；

计算分析系统相关的论文

Interpreting the Data: Parallel Analysis with Sawzall：Google 的 Sawzall 系统，提出了一种新的 DSL，简化 MapReduce 接口；
FlumeJava: Easy, Efficient Data-Parallel Pipelines：MapReduce 的 pipeline 版本，为了简化 pipeline 的管理和编程，Google 提出了 FlumeJava 框架；
Pregel: A System for Large-Scale Graph Processing：MapReduce 并不适合处理图计算相关的场景，Google 内部主键沉淀了一套图处理的框架；
Dremel: Interactive Analysis of Web-Scale Datasets：MR 延迟较大，Google 开发了一套交互式查询引擎 —— Dremel；
Tenzing A SQL Implementation On The MapReduce Framework：Tenzing 是一个建立在 MR 之上的 SQL 引擎；
PowerDrill：Processing a Trillion Cells per Mouse Click：Google 推出的基于内存的列存数据库；
MillWheel: Fault-Tolerant Stream Processing at Internet Scale：Google 流计算框架；
Mesa: Geo-Replicated, Near Real-Time, Scalable Data Warehousing：Google 的跨数据中心数据仓库系统；
Shasta: Interactive Reporting At Scale：Google 的交互式报表系统，；
Goods: Organizing Google’s Datasets：Google的元数据仓库Goods(Google DataSet Search)；

存储 & 数据库

Large-scale Incremental Processing Using Distributed Transactions and Notifications：基于 Bigtable 的增量索引更新系统；
Megastore: Providing Scalable, Highly Available Storage for Interactive Services：Megastore 本身基于 Bigtable，在保留可扩展/高性能/低延迟/高可用等优点的前提下，引入了传统关系数据库中的很多概念比如关系数据模型/事务/索引，同时基于 Paxos 实现了全球化同步复制，可以说是最早的分布式数据库实现了；
Spanner: Google’s Globally-Distributed Database：作为 Megastore 的继任者，它主要解决了 Megastore 存在的几个问题：性能、查询语言支持弱、分区不灵活。另外一个重要的创新是基于原子钟和 GPS 硬件实现了 TrueTime API，并基于这个 API 实现了更强的一致性保证；
F1: A Distributed SQL Database That Scales：基于 Spanner 实现的分布式 SQL 数据库，主要实现了一个分布式并行查询引擎，支持一致性索引和非阻塞的在线 Schema 变更；

AI

Google 这 20 年的论文，前 10 年主要在解决扩展性的问题，主要是在分布式系统这块；后十年，主要在解决分布式带来的问题，比如易用性的问题，提供更加方便的编程接口和一致性模型，很多借鉴了当前传统数据库领域的一些做法。解决完扩展性和易用性之后，下一个 10 年，我们将一起见证~

Jun 05 '20 07:06 wangzzu

请问下大神，像这种论文，基本上都是方法论，如果自己涉及不到底层开发而偏向业务开发的话，有什么实践的方式吗？

Jun 10 '20 01:06 lecssmi

请问下大神，像这种论文，基本上都是方法论，如果自己涉及不到底层开发而偏向业务开发的话，有什么实践的方式吗？

这个不太好回答，因为我是做分布式相关的，上面列的论文也是分布式相关的，对于我来说，看论文可以提高技术加强理论知识以及提高技术深度和视野，做系统（参与相关开源社区）可以提高实践能力。做业务的话，我理解可以分两种：一种是算法（算法涉及的工作比较多，不仅仅是算法工程师）及 AI 相关的，这种工作需要与理论联系比较紧密，这种工作看论文对工作提供的帮助非常大，另一种是纯业务开发，我个人觉得对工作帮忙比较大的还是提高对业务和行业的理解，也会有一些相关的论文，不过更应该去关注一些一线大厂（特别硅谷一线大厂）他们关于业务思考的一些文章（如果对论文感兴趣，也可以花时间看看，不过最好关注于自己相关的）。

Jun 10 '20 02:06 wangzzu

现在基本上都上云了，整个大数据环境机会是封闭的，对于开发人员来说，感觉还是很不利的。中小型公司都是为业务而生。据我所知，包括阿里，也将大部分的开发人员划归到阿里云，可能楼主也是。而其他的业务线更多是一种用工具，而非造工具的情况。如果哪天离开了这个公司，基本上就没什么王牌了。去年面试了一个人就是这样，MaxCompute用得比较熟练，底层基本上不知道。

Matt Wang [email protected] 于2020年6月10日周三上午10:56写道：

请问下大神，像这种论文，基本上都是方法论，如果自己涉及不到底层开发而偏向业务开发的话，有什么实践的方式吗？

这个不太好回答，因为我是做分布式相关的，上面列的论文也是分布式相关的，对于我来说，看论文可以提高技术加强理论知识以及提高技术深度和视野，做系统（参与相关开源社区）可以提高实践能力。做业务的话，我理解可以分两种：一种是算法（算法涉及的工作比较多，不仅仅是算法工程师）及 AI 相关的，这种工作需要与理论联系比较紧密，这种工作看论文对工作提供的帮助非常大，另一种是纯业务开发，我个人觉得对工作帮忙比较大的还是提高对业务和行业的理解，也会有一些相关的论文，不过更应该去关注一些一线大厂（特别硅谷一线大厂）他们关于业务思考的一些文章（如果对论文感兴趣，也可以花时间看看，不过最好关注于自己相关的）。

— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/wangzzu/awesome/issues/31#issuecomment-641689308, or unsubscribe https://github.com/notifications/unsubscribe-auth/AIAEKG5ZPSQREN4MUJUJF5LRV3Y4DANCNFSM4KB57F4A .

Jun 10 '20 05:06 lecssmi

现在基本上都上云了，整个大数据环境机会是封闭的，对于开发人员来说，感觉还是很不利的。中小型公司都是为业务而生。据我所知，包括阿里，也将大部分的开发人员划归到阿里云，可能楼主也是。而其他的业务线更多是一种用工具，而非造工具的情况。如果哪天离开了这个公司，基本上就没什么王牌了。去年面试了一个人就是这样，MaxCompute用得比较熟练，底层基本上不知道。 Matt Wang [email protected] 于2020年6月10日周三上午10:56写道： … 请问下大神，像这种论文，基本上都是方法论，如果自己涉及不到底层开发而偏向业务开发的话，有什么实践的方式吗？这个不太好回答，因为我是做分布式相关的，上面列的论文也是分布式相关的，对于我来说，看论文可以提高技术加强理论知识以及提高技术深度和视野，做系统（参与相关开源社区）可以提高实践能力。做业务的话，我理解可以分两种：一种是算法（算法涉及的工作比较多，不仅仅是算法工程师）及 AI 相关的，这种工作需要与理论联系比较紧密，这种工作看论文对工作提供的帮助非常大，另一种是纯业务开发，我个人觉得对工作帮忙比较大的还是提高对业务和行业的理解，也会有一些相关的论文，不过更应该去关注一些一线大厂（特别硅谷一线大厂）他们关于业务思考的一些文章（如果对论文感兴趣，也可以花时间看看，不过最好关注于自己相关的）。 — You are receiving this because you commented. Reply to this email directly, view it on GitHub <#31 (comment)>, or unsubscribe https://github.com/notifications/unsubscribe-auth/AIAEKG5ZPSQREN4MUJUJF5LRV3Y4DANCNFSM4KB57F4A .

我估计你说那个同学是做业务的，不是做底层研发的同学。关于你说的这个，我是赞同的，未来程序员的门槛肯定会越来越低，当前这些大数据框架的易用性也会越来越强，会让业务的同学更加聚焦于业务逻辑，提高研发效率，这个是趋势，不可阻挡，但带来的另一个结果是，底层系统的门槛会越来越高，现在的一些开源框架动辄都是上百万行的代码，不过底层系统的坑/机会也会越来越少，过去是这样，未来也是这样，只能期待再来一个新的技术，把当前的局面打破，这样新的机会也就来了。

Jun 10 '20 06:06 wangzzu

现在基本上都上云了，整个大数据环境机会是封闭的，对于开发人员来说，感觉还是很不利的。中小型公司都是为业务而生。据我所知，包括阿里，也将大部分的开发人员划归到阿里云，可能楼主也是。而其他的业务线更多是一种用工具，而非造工具的情况。如果哪天离开了这个公司，基本上就没什么王牌了。去年面试了一个人就是这样，MaxCompute用得比较熟练，底层基本上不知道。 Matt Wang [email protected] 于2020年6月10日周三上午10:56写道： … 请问下大神，像这种论文，基本上都是方法论，如果自己涉及不到底层开发而偏向业务开发的话，有什么实践的方式吗？这个不太好回答，因为我是做分布式相关的，上面列的论文也是分布式相关的，对于我来说，看论文可以提高技术加强理论知识以及提高技术深度和视野，做系统（参与相关开源社区）可以提高实践能力。做业务的话，我理解可以分两种：一种是算法（算法涉及的工作比较多，不仅仅是算法工程师）及 AI 相关的，这种工作需要与理论联系比较紧密，这种工作看论文对工作提供的帮助非常大，另一种是纯业务开发，我个人觉得对工作帮忙比较大的还是提高对业务和行业的理解，也会有一些相关的论文，不过更应该去关注一些一线大厂（特别硅谷一线大厂）他们关于业务思考的一些文章（如果对论文感兴趣，也可以花时间看看，不过最好关注于自己相关的）。 — You are receiving this because you commented. Reply to this email directly, view it on GitHub <#31 (comment)>, or unsubscribe https://github.com/notifications/unsubscribe-auth/AIAEKG5ZPSQREN4MUJUJF5LRV3Y4DANCNFSM4KB57F4A .

很赞同,感觉现在趋势很不利

Feb 02 '21 09:02 kimmazhenxin

awesome awesome copied to clipboard

Paper 阅读记录

awesome
awesome copied to clipboard