苏剑林(Jianlin Su) comments

Results 390 comments of


                                            苏剑林(Jianlin Su)

nezha配置是啥

nezha配置就是nezha模型的路径配置，还能是啥。。。至于什么是nezha模型，可以自行Google一下～

关于训好的seq2seq的model在不同机器上跑同样的测试集但是生成效果或分数有差别的疑问？

这个我真没经验了～模型本身不存在特别的随机参数。

关于训好的seq2seq的model在不同机器上跑同样的测试集但是生成效果或分数有差别的疑问？

注释掉不就随机权重了嘛～

loss为负

flow模型的训练目标是负对数似然，概率密度函数的负对数似然本来就可能为负的，没什么好奇怪的...... 这就跟“连续型概率密度函数的熵并非总是正的”是一个道理。对于离散型分布来说，所用的是概率，概率一定小于1，所以-log p一定是正数；但是连续型分布用的是概率密度，概率密度不一定小于1，所以-log p可能是负数，如果是正的p占主导，那么平均的-log p自然就是负数。

loss为负

> 那为何要让一个正的mse loss和负的flow loss相加作为最终的总loss呢，求解答哪里显示出“让一个正的mse loss和负的flow loss相加作为最终的总loss”？

> > flow模型的训练目标是负对数似然，概率密度函数的负对数似然本来就可能为负的，没什么好奇怪的...... > > 这就跟“连续型概率密度函数的熵并非总是正的”是一个道理。 > > 对于离散型分布来说，所用的是概率，概率一定小于1，所以-log p一定是正数；但是连续型分布用的是概率密度，概率密度不一定小于1，所以-log p可能是负数，如果是正的p占主导，那么平均的-log p自然就是负数。 > > 如果负对数似然可正可负，那反向传播怎么优化呢，为负数时候怎么处理，代码中没有针对负对数似然为负时候进行特殊处理为什么要特殊处理呢？loss为负又没犯法，又没抢你饭碗，干嘛特意针对它呢？一个函数可以作为loss的必要条件是它有下界，没说它一定要是正的啊。假如f(x)的最小值为-1，我用梯度下降找到这个最小值点有什么问题吗？

loss无法降下来

很抱歉，但是很遗憾，我也不知道你们什么问题。因为有人报告过同样的问题，也有人报告过能成功训练，我自己也能成功训练，所以我也无从下手。建议尝试：1、严格对齐环境；2、去掉EMA。

实验环境与训练速度

我也不知道为什么