1073521013
1073521013
But I tried other models with pre-training. It's the same problem for WTQ,,WIKISQL,SQA. Thanks
Because my task is to verify the relationship between the table and the statement and which cells can be proved, I chose TABFACT as my task, but I tried a...
1、transformer原版的实现确实都没加,brightmart在预测的部分加了,个人觉得这块加前缀优势可以学到细粒度信息,但是下游任务一般wordpicse分词所以存在gap,我在3个下游任务做了几个测试,有两个任务加前缀f1略高半个百分点,可能需要更多实验验证吧。 2、方便说下啥技巧吗 3、抱歉,这个问题是我疏忽了。
1 下游任务不会保留“##”前缀信息,也就是不会用到分词,所以和训练存在不一致的情况, 就跟预测“”标记似的,预训练和下游任务也是存在不一致情况,但是个人感觉预训练过程增加“##”确实可以学到细粒度信息吧,比如“苹果”的”##果“和“果然”的“果”特征学习还是有利于模型收敛的。 2 好的,非常感谢耐心解答
请问这个解决了吗?遇到类似的问题
> 这里历史序列中的dense_feature一般做离散化作为sparse_feature输入~ 希望作者可以支持一下,搞一个varLenDenseFeat, 很多‘dense_feature’是已经经过预训练模型embedding后的,感谢大佬
> @1073521013 yea, so there's a couple possibilities > > (1) the memory efficient unet is bugged or does not mix well with the gaussian blur augmentation (2) gaussian blur...
> So you have both gaussian blur as well as noise conditioning? yes