Mooncake icon indicating copy to clipboard operation
Mooncake copied to clipboard

[Bug]: rdma_context getBestGidIndex() 在多 GID 环境下选择了错误的索引

Open uniqueni opened this issue 2 months ago • 2 comments

Bug Report

问题: getBestGidIndex() 在多 GID 环境下选择了错误的索引

问题描述

当前 rdma_context.cpp 中的 getBestGidIndex() 函数在找到第一个符合条件的 GID 后会立即返回: https://github.com/kvcache-ai/Mooncake/blob/26948206e26dc4a0fc7ae1a7e7145a5549d59355/mooncake-transfer-engine/src/transport/rdma_transport/rdma_context.cpp#L411

复现环境

在我的环境中,有 2 个 GID 都符合条件(IPv4-mapped + RoCE v2): GID[3]: ::ffff:26.208.8.250 (RoCE v2) - 不是本机 IP GID[7]: ::ffff:26.208.8.252 (RoCE v2) - 本机 eth1 的 IP Image

实际表现

程序选择了 index 3 并立即返回,但实际应该选择 index 7(对应本机网络接口): 本机网络配置

当前 Workaround

可以通过设置 MC_GID_INDEX 环境变量手动指定,但这需要额外编写脚本来获取正确的 index,不够方便。

###期望行为 程序应该自动选择关联到本机网络接口的 GID,而不是第一个匹配的 GID。

uniqueni avatar Oct 21 '25 12:10 uniqueni

你好,感谢关注~ 因为这版模型是通过续写的方式来做音色克隆的,所以如果Speech prompt有截断的话会发生续写prompt的情况。请尝试调整prompt,或者在修改generation_utils.py第13行SILENCE_DURATION = 0.0的值为0.1,避免生成音频续写prompt被截断的部分。

xiami2019 avatar Jul 23 '25 08:07 xiami2019

你好,感谢关注~ 因为这版模型是通过续写的方式来做音色克隆的,所以如果Speech prompt有截断的话会发生续写prompt的情况。请尝试调整prompt,或者在修改generation_utils.py第13行SILENCE_DURATION = 0.0的值为0.1,避免生成音频续写prompt被截断的部分。

好的,感谢解答

Jandown avatar Jul 23 '25 09:07 Jandown