openmlsys-zh
openmlsys-zh copied to clipboard
《Machine Learning Systems: Design and Implementation》- Chinese Version

chapter_model_deployment/model_converter_and_optimizer 图9.2.1的行和列表达反了
 红框所示位置 **机器学习通系统**应为**机器学习系统** 位置在**2.2 设计目标**
 方向应该仅为梯度,不乘以学习率 位置**3.2.4. 损失函数和优化器** [@Laicheng0830](https://github.com/Laicheng0830)
定稿之后,我们需要输出word版本的稿件交付给出版社,然后开始审校、出版流程。后续在此issue上更新进展。 **1、出版社后续流程如下:** 1)出版社组织三审(30*3=90天) 2)出版社组织排版(20 天) 3)出版社申请书号(1天) 4)出版社组织第一次校对(20天) 5)出版社组织第二次/第三次校对及第二次/第三次排版(25*2=50天) 6)出版社组织质量检查及第四次排版(15 天) 7)出版社组织印刷及进入库房(15 天) 8) 各网店及经销商从出版社陆续订货上市(15 天) **说明**:上述为流程时间,可按照实际进行缩短,当前预估**4个月左右**能出版。 **流程参考**:清华大学出版社流程.pdf **2、整体任务和计划:** 1)基于MD稿件输出word版本的初稿,满足出版社的格式要求,**5月中旬**。 2)针对审校问题进行解答。 3)整理书籍介绍、书序以及书评,**7月底之前**。 说明:这些任务需要在**审校完成之前**完成输出。
https://openmlsys.github.io/chapter_federated_learning/privacy_encryption_algorithm.html 在网页上和我本地build的html都遇到了数学符号/公式没有正常显示的问题。@chengtianwu @eedalong
outlook.md 和 prospect.md 是用哪一个,需要在index.md中修改
感谢各位的付出。 { 7.2.2 Shared Memory 的访存几十个cycle,而且还受指令依赖等其他因素制约。通用寄存器GPR的访问周期是依附于指令的,FFMA这种指令快的话从指令issue到拿到结果只需要~10 cycle而且指令间存在并行。因此Shared Memory与GPR没有可比性,如果硬要比的话GPR也远快与Shared Memory。 Shared Memroy作用范围似乎没讲(一个block之内)。 Local Memory好像没说。 7.3 似乎是没讲CUTLASS,实际工业场景自定义算子用CUTLASS较多。 指令集层面应该没提SASS。 7.3.3 Fragment映射到底层是寄存器而不是TensorCore上的某个区域,所以前后文字包括伪代码应该都有一些不准确的地方。 最后 GEMM优化最重要的应当是提高compute intensity(通俗理解就是计算读取比),制约GPU的因素个人经验主要是在于内存(包括global与shared)读写周期长而不是计算。大部分时间在优化访存流水线,这里似乎用较多篇幅在强调WMMA与TensorCore。 此外 合并访问,warp divergence这些concepts似乎也没提。 } Best regards, Jie