HH&CC
HH&CC
> @ethanhe42 I wonder whether `pipeline_model_parallel_size == 2` can be accepted? @ethanhe42 same question.
结合上面分析和 benchmark 数据,这里怎么理解单用 ulysses 比混用 ulysses 和 ring 性能差?原因是单用 ulysses 做完 alltoall,会把 h 切的比较小,影响了 gemm 计算的密度?
> > 结合上面分析和 benchmark 数据,这里怎么理解单用 ulysses 比混用 ulysses 和 ring 性能差?原因是单用 ulysses 做完 alltoall,会把 h 切的比较小,影响了 gemm 计算的密度? > > 你没正确理解这个图。它想说单机八卡nvlink环境,Ring-Attention性能不如Ulysses。 ulysses比ring整体性能好很多。因为ring把完整attention计算切分了,导致整体计算时间变长。Ulysess增加额外all2all但是时间比例很小。二者比较下来ring就有劣势。 嗯嗯,感谢你的工作和回复。图里表达的逻辑,我没有疑问哈;  结合您这里的分析和 readme中的吞吐数据,我主要是在理解,假设 ulysses 切分不受限情况下,为什么单用 ulysses 比混用两种方案性能低,为什么不是...