HH&CC comments

Results 3 comments of


                                            HH&CC

[QUESTION] why pipeline-model-parallel size should be greater than 2 with interleaved schedule ？

> @ethanhe42 I wonder whether `pipeline_model_parallel_size == 2` can be accepted? @ethanhe42 same question.

Comparing Ulysses and Ring with torch profiler

结合上面分析和 benchmark 数据，这里怎么理解单用 ulysses 比混用 ulysses 和 ring 性能差？原因是单用 ulysses 做完 alltoall，会把 h 切的比较小，影响了 gemm 计算的密度？

Comparing Ulysses and Ring with torch profiler

> > 结合上面分析和 benchmark 数据，这里怎么理解单用 ulysses 比混用 ulysses 和 ring 性能差？原因是单用 ulysses 做完 alltoall，会把 h 切的比较小，影响了 gemm 计算的密度？ > > 你没正确理解这个图。它想说单机八卡nvlink环境，Ring-Attention性能不如Ulysses。 ulysses比ring整体性能好很多。因为ring把完整attention计算切分了，导致整体计算时间变长。Ulysess增加额外all2all但是时间比例很小。二者比较下来ring就有劣势。嗯嗯，感谢你的工作和回复。图里表达的逻辑，我没有疑问哈； ![image](https://github.com/feifeibear/long-context-attention/assets/34435196/2df44abd-770a-4fef-8282-877d0a5b3d8f) 结合您这里的分析和 readme中的吞吐数据，我主要是在理解，假设 ulysses 切分不受限情况下，为什么单用 ulysses 比混用两种方案性能低，为什么不是...