RWKV-LM
RWKV-LM copied to clipboard
rwkv-4 RWKV_TimeMix如何分割序列,没有看到cuda_run接受任何sequence切分的标志?
trafficstars
RWKV_TimeMix中在序列维度上进行操作,在进行训练时训练数据常常是首尾相接的,序列之间需要隔断分开进行处理,例如flashattention会接收一个序列开始位置的输入,RUN_CUDA似乎没有,是如何实现的
目前是直接在数据用 [0] 作为分隔