RWKV-LM icon indicating copy to clipboard operation
RWKV-LM copied to clipboard

rwkv-4 RWKV_TimeMix如何分割序列,没有看到cuda_run接受任何sequence切分的标志?

Open Bsdnbo opened this issue 9 months ago • 1 comments
trafficstars

RWKV_TimeMix中在序列维度上进行操作,在进行训练时训练数据常常是首尾相接的,序列之间需要隔断分开进行处理,例如flashattention会接收一个序列开始位置的输入,RUN_CUDA似乎没有,是如何实现的

Bsdnbo avatar Feb 11 '25 07:02 Bsdnbo

目前是直接在数据用 [0] 作为分隔

BlinkDL avatar Feb 16 '25 10:02 BlinkDL