dssm
dssm copied to clipboard
训练loss正常下降,验证loss下降缓慢
训练集使用的oppo_round1_train_20180929.txt
验证使用的oppo_round1_vali_20180929.txt
请问有人遇到相似情况吗
我也是,测试集loss甚至开始涨了
收到,这个周末会进行排查解决
确实会有这个问题,我这边排查也没找到问题所在,猜测是数据集问题,所以进行了以下实验:
- 数据:更换数据集为LCQMC口语化描述的语义相似度数据集(实在找不到其他公开的搜索点击数据集,用语义相似数据集实验),模型也从多塔变成了双塔模型,见siamese_network.py。
- 结果:目前看在此数据集上测试数据集的准确率是提升的,所以猜测是数据集问题,看了oppo里面的似乎有些相同的query和doc,都没有被点击。。。
确实会有这个问题,我这边排查也没找到问题所在,猜测是数据集问题,所以进行了一下实验:
- 数据:更换数据集为LCQMC口语化描述的语义相似度数据集(实在找不到其他公开的搜索点击数据集,用语义相似数据集实验),模型也从多塔变成了双塔模型,见siamese_network.py。
- 结果:目前看在此数据集上测试数据集的准确率是提升的,所以猜测是数据集问题,看了oppo里面的似乎有些相同的query和doc,都没有被点击。。。
辛苦啦
确实会有这个问题,我这边排查也没找到问题所在,猜测是数据集问题,所以进行了以下实验:
- 数据:更换数据集为LCQMC口语化描述的语义相似度数据集(实在找不到其他公开的搜索点击数据集,用语义相似数据集实验),模型也从多塔变成了双塔模型,见siamese_network.py。
- 结果:目前看在此数据集上测试数据集的准确率是提升的,所以猜测是数据集问题,看了oppo里面的似乎有些相同的query和doc,都没有被点击。。。
你好,我有两个小问题: 1、请问为什么这里bert作为特征提取器时,不考虑多塔模型呢?个人感觉DSSM的精髓之一就是在于用多塔结构放大了样本间的区别。 2、siamese_network.py里有个函数是siamese_loss,好像没有被使用过,请问这个函数里的out1、out2和loss的计算方式是什么样的方便讲一下吗?是否可以据此改造成bert多塔模型?
确实会有这个问题,我这边排查也没找到问题所在,猜测是数据集问题,所以进行了以下实验:
- 数据:更换数据集为LCQMC口语化描述的语义相似度数据集(实在找不到其他公开的搜索点击数据集,用语义相似数据集实验),模型也从多塔变成了双塔模型,见siamese_network.py。
- 结果:目前看在此数据集上测试数据集的准确率是提升的,所以猜测是数据集问题,看了oppo里面的似乎有些相同的query和doc,都没有被点击。。。
你好,我有两个小问题: 1、请问为什么这里bert作为特征提取器时,不考虑多塔模型呢?个人感觉DSSM的精髓之一就是在于用多塔结构放大了样本间的区别。 2、siamese_network.py里有个函数是siamese_loss,好像没有被使用过,请问这个函数里的out1、out2和loss的计算方式是什么样的方便讲一下吗?是否可以据此改造成bert多塔模型?
siamese_network.py中的SiamenseBert类就是bert双塔模型,由于LCQMC的数据集是query对,所以这里是双塔模型