awesome
awesome copied to clipboard
Paper 阅读记录
以后的 paper 阅读记录都放在这个 issue 下,尽量每篇 paper 都输出一篇笔记或者一段话做总结,优秀、经典的论文要参考这篇文章( 一起读 paper )的方式来阅读。
下面有几个分布式相关的论文列表:
- 这有个不错的系列:https://www.cnblogs.com/baiboy/p/100p.html
- 知乎上有个不错的系列:https://zhuanlan.zhihu.com/db-readings
- 这里还有一个机器学习的经典论文:https://github.com/LuckyZXL2016/Machine-Learning-Papers
- 分布式系统相关论文:https://www.cnblogs.com/superf0sh/p/5754283.html
- 读完这100篇论文 就能成大数据高手
- Readings in Streaming Systems
- My Top 10 Deep RL Papers of 2019
- 分布式系统领域经典论文翻译集、深度探索分布式理论经典论文;
- 计算机史上最重要的 35 篇论文;
- A Distributed Systems Reading List;
分布式系统的一些课程:
2019 paper 阅读记录:
序号 | Paper | Paper阅读完成时间 | 输出文章 | 备注 |
---|---|---|---|---|
1 | Apache Calcite: A Foundational Framework for Optimized Query Processing Over Heterogeneous Data Sources | 2019.2 | ||
2 | Lightweight Asynchronous Snapshots for Distributed Dataflows | 2019.10.12 | Paper 阅读 | Flink Snapshot 算法的文章 |
3 | Real-Time Machine Learning: The Missing Pieces | 2019.10.18 | Paper 阅读 | |
4 | distributed snapshots determining global states of distributed systems | 2019.10.30 | Paper 阅读 | Chandy-Lamport 算法 |
2020 paper 阅读记录:
Google 最近 20 年一些论文合集 (来自 duanple)
这些优秀论文通常发表在 OSDI、SOSP、SIGMOD、VLDB、Macro、Eurosys、SIGCOMM、CIDR、SIGARCH、SIGCOMM 等顶级期刊和会议上。
Google 业务的起源相关的论文
- The anatomy of a large-scale hypertextual Web search engine:1998,Google 搜索理论基础的原始论文;
- WEBSEARCH FOR A PLANET: THE GOOGLECLUSTER ARCHITECTURE:Google 采用分布式解决问题的缘由,出发点是性价比,更深入的思考是传统的架构已经无法解决未来的问题;
- The Google File System:大名鼎鼎的 GFS 论文,今天 Google 内部已经进化到第二代GFS:Colossus;
- MapReduce: Simplified Data Processing on Large Clusters;
- Bigtable: A Distributed Storage System for Structured Data:大名鼎鼎的 BigTable 论文,NoSQL 的起源;
基础设施相关的论文
- The Chubby lock service for loosely-coupled distributed systems:Chubby 系统的实现,它 Google 内部分布式锁服务,开源系统常用的是 ZooKeeper;
- Borg、Omega、kubernetes:Google 内部的资源管理系统(Borg, Omega, and Kubernetes),kubernetes 已经开源,并且基本上统一了云上的调度系统;
- CPI2: CPU performance isolation for shared compute clusters:Google 在离线在线混部上做得一些尝试;
- Google-Wide Profiling: A Continuous Profiling Infrastructure for Data Centers:Google 分布式 profiling 基础设施;
- Dapper, a Large-Scale Distributed Systems Tracing Infrastructure:Google 分布式 Tracing 基础设施;
- B4: Experience with a Globally-Deployed Software Defined WAN:Google 全球数据中心网络改造;
计算分析系统相关的论文
- Interpreting the Data: Parallel Analysis with Sawzall:Google 的 Sawzall 系统,提出了一种新的 DSL,简化 MapReduce 接口;
- FlumeJava: Easy, Efficient Data-Parallel Pipelines:MapReduce 的 pipeline 版本,为了简化 pipeline 的管理和编程,Google 提出了 FlumeJava 框架;
- Pregel: A System for Large-Scale Graph Processing:MapReduce 并不适合处理图计算相关的场景,Google 内部主键沉淀了一套图处理的框架;
- Dremel: Interactive Analysis of Web-Scale Datasets:MR 延迟较大,Google 开发了一套交互式查询引擎 —— Dremel;
- Tenzing A SQL Implementation On The MapReduce Framework:Tenzing 是一个建立在 MR 之上的 SQL 引擎;
- PowerDrill:Processing a Trillion Cells per Mouse Click:Google 推出的基于内存的列存数据库;
- MillWheel: Fault-Tolerant Stream Processing at Internet Scale:Google 流计算框架;
- Mesa: Geo-Replicated, Near Real-Time, Scalable Data Warehousing:Google 的跨数据中心数据仓库系统;
- Shasta: Interactive Reporting At Scale:Google 的交互式报表系统,;
- Goods: Organizing Google’s Datasets:Google的元数据仓库Goods(Google DataSet Search);
存储 & 数据库
- Large-scale Incremental Processing Using Distributed Transactions and Notifications:基于 Bigtable 的增量索引更新系统;
- Megastore: Providing Scalable, Highly Available Storage for Interactive Services:Megastore 本身基于 Bigtable,在保留可扩展/高性能/低延迟/高可用等优点的前提下,引入了传统关系数据库中的很多概念比如关系数据模型/事务/索引,同时基于 Paxos 实现了全球化同步复制,可以说是最早的分布式数据库实现了;
- Spanner: Google’s Globally-Distributed Database:作为 Megastore 的继任者,它主要解决了 Megastore 存在的几个问题:性能、查询语言支持弱、分区不灵活。另外一个重要的创新是基于原子钟和 GPS 硬件实现了 TrueTime API,并基于这个 API 实现了更强的一致性保证;
- F1: A Distributed SQL Database That Scales:基于 Spanner 实现的分布式 SQL 数据库,主要实现了一个分布式并行查询引擎,支持一致性索引和非阻塞的在线 Schema 变更;
AI
- TensorFlow: A System for Large-Scale Machine Learning;
- In-Datacenter Performance Analysis of a Tensor Processing Unit:;
Google 这 20 年的论文,前 10 年主要在解决扩展性的问题,主要是在分布式系统这块;后十年,主要在解决分布式带来的问题,比如易用性的问题,提供更加方便的编程接口和一致性模型,很多借鉴了当前传统数据库领域的一些做法。解决完扩展性和易用性之后,下一个 10 年,我们将一起见证~
请问下大神,像这种论文,基本上都是方法论,如果自己涉及不到底层开发而偏向业务开发的话,有什么实践的方式吗?
请问下大神,像这种论文,基本上都是方法论,如果自己涉及不到底层开发而偏向业务开发的话,有什么实践的方式吗?
这个不太好回答,因为我是做分布式相关的,上面列的论文也是分布式相关的,对于我来说,看论文可以提高技术加强理论知识以及提高技术深度和视野,做系统(参与相关开源社区)可以提高实践能力。 做业务的话,我理解可以分两种:一种是算法(算法涉及的工作比较多,不仅仅是算法工程师)及 AI 相关的,这种工作需要与理论联系比较紧密,这种工作看论文对工作提供的帮助非常大,另一种是纯业务开发,我个人觉得对工作帮忙比较大的还是提高对业务和行业的理解,也会有一些相关的论文,不过更应该去关注一些一线大厂(特别硅谷一线大厂)他们关于业务思考的一些文章(如果对论文感兴趣,也可以花时间看看,不过最好关注于自己相关的)。
现在基本上都上云了,整个大数据环境机会是封闭的,对于开发人员来说,感觉还是很不利的。中小型公司都是为业务而生。据我所知,包括阿里,也将大部分的开发人员划归到阿里云,可能楼主也是。而其他的业务线更多是一种用工具,而非造工具的情况。如果哪天离开了这个公司,基本上就没什么王牌了。去年面试了一个人就是这样,MaxCompute用得比较熟练,底层基本上不知道。
Matt Wang [email protected] 于2020年6月10日周三 上午10:56写道:
请问下大神,像这种论文,基本上都是方法论,如果自己涉及不到底层开发而偏向业务开发的话,有什么实践的方式吗?
这个不太好回答,因为我是做分布式相关的,上面列的论文也是分布式相关的,对于我来说,看论文可以提高技术加强理论知识以及提高技术深度和视野,做系统(参与相关开源社区)可以提高实践能力。 做业务的话,我理解可以分两种:一种是算法(算法涉及的工作比较多,不仅仅是算法工程师)及 AI 相关的,这种工作需要与理论联系比较紧密,这种工作看论文对工作提供的帮助非常大,另一种是纯业务开发,我个人觉得对工作帮忙比较大的还是提高对业务和行业的理解,也会有一些相关的论文,不过更应该去关注一些一线大厂(特别硅谷一线大厂)他们关于业务思考的一些文章(如果对论文感兴趣,也可以花时间看看,不过最好关注于自己相关的)。
— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/wangzzu/awesome/issues/31#issuecomment-641689308, or unsubscribe https://github.com/notifications/unsubscribe-auth/AIAEKG5ZPSQREN4MUJUJF5LRV3Y4DANCNFSM4KB57F4A .
现在基本上都上云了,整个大数据环境机会是封闭的,对于开发人员来说,感觉还是很不利的。中小型公司都是为业务而生。据我所知,包括阿里,也将大部分的开发人员划归到阿里云,可能楼主也是。而其他的业务线更多是一种用工具,而非造工具的情况。如果哪天离开了这个公司,基本上就没什么王牌了。去年面试了一个人就是这样,MaxCompute用得比较熟练,底层基本上不知道。 Matt Wang [email protected] 于2020年6月10日周三 上午10:56写道: … 请问下大神,像这种论文,基本上都是方法论,如果自己涉及不到底层开发而偏向业务开发的话,有什么实践的方式吗? 这个不太好回答,因为我是做分布式相关的,上面列的论文也是分布式相关的,对于我来说,看论文可以提高技术加强理论知识以及提高技术深度和视野,做系统(参与相关开源社区)可以提高实践能力。 做业务的话,我理解可以分两种:一种是算法(算法涉及的工作比较多,不仅仅是算法工程师)及 AI 相关的,这种工作需要与理论联系比较紧密,这种工作看论文对工作提供的帮助非常大,另一种是纯业务开发,我个人觉得对工作帮忙比较大的还是提高对业务和行业的理解,也会有一些相关的论文,不过更应该去关注一些一线大厂(特别硅谷一线大厂)他们关于业务思考的一些文章(如果对论文感兴趣,也可以花时间看看,不过最好关注于自己相关的)。 — You are receiving this because you commented. Reply to this email directly, view it on GitHub <#31 (comment)>, or unsubscribe https://github.com/notifications/unsubscribe-auth/AIAEKG5ZPSQREN4MUJUJF5LRV3Y4DANCNFSM4KB57F4A .
我估计你说那个同学是做业务的,不是做底层研发的同学。 关于你说的这个,我是赞同的,未来程序员的门槛肯定会越来越低,当前这些大数据框架的易用性也会越来越强,会让业务的同学更加聚焦于业务逻辑,提高研发效率,这个是趋势,不可阻挡,但带来的另一个结果是,底层系统的门槛会越来越高,现在的一些开源框架动辄都是上百万行的代码,不过底层系统的坑/机会也会越来越少,过去是这样,未来也是这样,只能期待再来一个新的技术,把当前的局面打破,这样新的机会也就来了。
现在基本上都上云了,整个大数据环境机会是封闭的,对于开发人员来说,感觉还是很不利的。中小型公司都是为业务而生。据我所知,包括阿里,也将大部分的开发人员划归到阿里云,可能楼主也是。而其他的业务线更多是一种用工具,而非造工具的情况。如果哪天离开了这个公司,基本上就没什么王牌了。去年面试了一个人就是这样,MaxCompute用得比较熟练,底层基本上不知道。 Matt Wang [email protected] 于2020年6月10日周三 上午10:56写道: … 请问下大神,像这种论文,基本上都是方法论,如果自己涉及不到底层开发而偏向业务开发的话,有什么实践的方式吗? 这个不太好回答,因为我是做分布式相关的,上面列的论文也是分布式相关的,对于我来说,看论文可以提高技术加强理论知识以及提高技术深度和视野,做系统(参与相关开源社区)可以提高实践能力。 做业务的话,我理解可以分两种:一种是算法(算法涉及的工作比较多,不仅仅是算法工程师)及 AI 相关的,这种工作需要与理论联系比较紧密,这种工作看论文对工作提供的帮助非常大,另一种是纯业务开发,我个人觉得对工作帮忙比较大的还是提高对业务和行业的理解,也会有一些相关的论文,不过更应该去关注一些一线大厂(特别硅谷一线大厂)他们关于业务思考的一些文章(如果对论文感兴趣,也可以花时间看看,不过最好关注于自己相关的)。 — You are receiving this because you commented. Reply to this email directly, view it on GitHub <#31 (comment)>, or unsubscribe https://github.com/notifications/unsubscribe-auth/AIAEKG5ZPSQREN4MUJUJF5LRV3Y4DANCNFSM4KB57F4A .
很赞同,感觉现在趋势很不利