hamlet

Results 16 comments of hamlet
trafficstars

@LoveNingBo 不好意思,刚看到。训练中命令行有一个参数--attn_alpha,默认值1会禁止decoder的cls层参与训练,对模型来说是正常的。但我不知道你是否用了专门的训练框架,模型内存在未参与计算的层时有些训练框架会报错退出,如果只是warning能继续训练且loss下降了,那就没有影响。

另外这个代码库只是试验用的,可能有很多bug,尽可能不要用在正式产品中。

@Fang-git0 不好意思,刚看到你的问题。 现在各个依赖类库都升级很快,本代码库已经两年多没有维护,可能出现各种不兼容;另外聊天AI的研究发展更快,本代码库方法早已过时,所以我不建议你再用本代码库,不如找一些最近发布的相关论文和代码研究更合适。

@binshuyi 不好意思,刚看到你的问题。 先要确定是训练的问题还是数据或模型的问题,训练过程中loss是多少?下降曲线正常吗?

试试在forward之前,打印一下所有输入数据,同时把输入数据decode为文本也打印出来。 如果数据都显示正常没问题,那可能是loss还太高,生成模型的loss一般在3以内效果才比较好。 不过生成的内容全是pad,这比较奇怪,如果你修改过模型或loss计算代码,那可能是模型或loss计算的问题,需要再检查调试这些代码。

@Fang-git0 不好意思,刚看到你的问题。 现在各个依赖类库都升级很快,本代码库已经两年多没有维护,可能出现各种不兼容;另外聊天AI的研究发展更快,本代码库方法早已过时,所以我不建议你再用本代码库,不如找一些最近发布的相关论文和代码研究更合适。