ouyangqianying

Results 1 comments of ouyangqianying

补充一下我使用的脚本,而且这个错误只在moe模型上出现。在密集模型上,会自动开启flashattetion作为后端,因为qk_head和v_dim都是128;但是moe模型的qk=192,v=128.所以flash_attention被禁用,fused被禁用。unfused因为使用变长序列的原因也被禁用。但是我还是不知道怎么修改: set -x export CUDA_DEVICE_MAX_CONNECTIONS=1 # For megatron communication/computation overlapping #export VLLM_FLASH_ATTN_VERSION=3 export HYDRA_FULL_ERROR=1 export NVTE_DEBUG=1 export NVTE_DEBUG_LEVEL=2 export SWANLAB_API_KEY=dMg0cJLqvfJ1TtqGd1vro # 设置在线跟踪模式API export SWANLAB_LOG_DIR=/workspace/verl/verl-main/log # 设置本地日志存储路径 export SWANLAB_MODE=local # 包含四种模式:cloud云端跟踪模式(默认)、cloud-only仅云端跟踪本地不保存文件、local本地跟踪模式、disabled完全不记录用于debug...