HH&CC

Results 3 comments of HH&CC

> @ethanhe42 I wonder whether `pipeline_model_parallel_size == 2` can be accepted? @ethanhe42 same question.

结合上面分析和 benchmark 数据,这里怎么理解单用 ulysses 比混用 ulysses 和 ring 性能差?原因是单用 ulysses 做完 alltoall,会把 h 切的比较小,影响了 gemm 计算的密度?

> > 结合上面分析和 benchmark 数据,这里怎么理解单用 ulysses 比混用 ulysses 和 ring 性能差?原因是单用 ulysses 做完 alltoall,会把 h 切的比较小,影响了 gemm 计算的密度? > > 你没正确理解这个图。它想说单机八卡nvlink环境,Ring-Attention性能不如Ulysses。 ulysses比ring整体性能好很多。因为ring把完整attention计算切分了,导致整体计算时间变长。Ulysess增加额外all2all但是时间比例很小。二者比较下来ring就有劣势。 嗯嗯,感谢你的工作和回复。图里表达的逻辑,我没有疑问哈; ![image](https://github.com/feifeibear/long-context-attention/assets/34435196/2df44abd-770a-4fef-8282-877d0a5b3d8f) 结合您这里的分析和 readme中的吞吐数据,我主要是在理解,假设 ulysses 切分不受限情况下,为什么单用 ulysses 比混用两种方案性能低,为什么不是...