ouyangqianying comments

Results 1 comments of


                                            ouyangqianying

ValueError: No dot product attention backend is available for the provided inputs.

补充一下我使用的脚本，而且这个错误只在moe模型上出现。在密集模型上，会自动开启flashattetion作为后端，因为qk_head和v_dim都是128；但是moe模型的qk=192,v=128.所以flash_attention被禁用，fused被禁用。unfused因为使用变长序列的原因也被禁用。但是我还是不知道怎么修改： set -x export CUDA_DEVICE_MAX_CONNECTIONS=1 # For megatron communication/computation overlapping #export VLLM_FLASH_ATTN_VERSION=3 export HYDRA_FULL_ERROR=1 export NVTE_DEBUG=1 export NVTE_DEBUG_LEVEL=2 export SWANLAB_API_KEY=dMg0cJLqvfJ1TtqGd1vro # 设置在线跟踪模式API export SWANLAB_LOG_DIR=/workspace/verl/verl-main/log # 设置本地日志存储路径 export SWANLAB_MODE=local # 包含四种模式：cloud云端跟踪模式（默认）、cloud-only仅云端跟踪本地不保存文件、local本地跟踪模式、disabled完全不记录用于debug...