苏剑林(Jianlin Su)
苏剑林(Jianlin Su)
nezha配置就是nezha模型的路径配置,还能是啥。。。至于什么是nezha模型,可以自行Google一下~
验证问题的答案没错就不会拒绝
这个我真没经验了~模型本身不存在特别的随机参数。
注释掉不就随机权重了嘛~
flow模型的训练目标是负对数似然,概率密度函数的负对数似然本来就可能为负的,没什么好奇怪的...... 这就跟“连续型概率密度函数的熵并非总是正的”是一个道理。 对于离散型分布来说,所用的是概率,概率一定小于1,所以-log p一定是正数;但是连续型分布用的是概率密度,概率密度不一定小于1,所以-log p可能是负数,如果是正的p占主导,那么平均的-log p自然就是负数。
> 那为何要让一个正的mse loss和负的flow loss相加作为最终的总loss呢,求解答 哪里显示出“让一个正的mse loss和负的flow loss相加作为最终的总loss”?
我估计那只是有监督的情况下用来辅助优化的loss吧。
> > flow模型的训练目标是负对数似然,概率密度函数的负对数似然本来就可能为负的,没什么好奇怪的...... > > 这就跟“连续型概率密度函数的熵并非总是正的”是一个道理。 > > 对于离散型分布来说,所用的是概率,概率一定小于1,所以-log p一定是正数;但是连续型分布用的是概率密度,概率密度不一定小于1,所以-log p可能是负数,如果是正的p占主导,那么平均的-log p自然就是负数。 > > 如果负对数似然 可正可负,那反向传播怎么优化呢,为负数时候怎么处理,代码中没有针对负对数似然为负时候进行特殊处理 为什么要特殊处理呢?loss为负又没犯法,又没抢你饭碗,干嘛特意针对它呢?一个函数可以作为loss的必要条件是它有下界,没说它一定要是正的啊。假如f(x)的最小值为-1,我用梯度下降找到这个最小值点有什么问题吗?
很抱歉,但是很遗憾,我也不知道你们什么问题。 因为有人报告过同样的问题,也有人报告过能成功训练,我自己也能成功训练,所以我也无从下手。 建议尝试:1、严格对齐环境;2、去掉EMA。
我也不知道为什么