Results 2 issues of 大帆

# I have two question. ## the first one 训练的时候,使用的是红楼梦充当字典,并没有使用周杰伦的歌词,所以模型并没有周杰伦的歌词表达习惯。 ## the second one 生成的时候,把字典从红楼梦换到了周杰伦,模型没有做任何变化。如果周杰伦歌词的字要比红楼梦少,模型预测出来的词id超过了字典。那不会报越界的异常吗

缓存CKVt在推理时,是否需要重新计算kCt,vCt?如果需要,在多卡推理的时候,每张卡需要完整的CKVt,这样需要存储多份吧