Yuchen Han

Results 11 comments of Yuchen Han

@hwwang55 王宏伟老师您好!最近在深入研究DKN的代码,在news_process这一过程中,我发现了一个问题,就是raw_train.txt中的新闻标题的单词和train.txt中的新闻标题的编码在数量上和位置上有很多都是不一致的(实体编码亦然),下面是一些例子 0 tautog bite coming strong 0 36136:Tautog 0 bruce springsteen song magically rejected harry potter 0 331:Bruce Springsteen 0 watch tom cruise recreates iconic movie scenes james corden...

@hwwang55 感谢老师,祝工作顺利!

* 问题1:none_pad_mask只是为了统计正确词的个数时,防止输出\也算成正确的词 举个例子: trg: I love you . \ \ \ \ \ pred: I love you . \ \ \ \ \ 正确词数是5而不是9 * 问题2:论文中明确写着的一个小trick,大家普遍认为是用于弱化位置编码的

> 你好,这个问题目前解决了吗?

你好,这是我当时用的超参,是在README中的中英新闻语料中跑的 ``` CUDA_VISIBLE_DEVICES=0,1 fairseq-train ~/datasets/news-v15/data-bin \ --arch transformer --source-lang zh --target-lang en \ --optimizer adam --lr 0.001 --adam-betas '(0.9, 0.98)' \ --lr-scheduler inverse_sqrt --max-tokens 4096 --dropout 0.1 \ --criterion label_smoothed_cross_entropy...

> 感谢回复,但是我尝试使用moss的reward model的打分时给baichuan-13b-chat或者gpt-4的response的平均打分甚至还不如几k数据sft的baichuan-7b(用其他的reward model就没有这种情况),可以麻烦作者使用我上面的测试代码试一下吗?我想确认一下是我这哪里出了问题(也有可能是我合并没合并对,但是初步检查了一下好像没问题),万分感谢!

@lln1997 还没有,你也遇到这个问题了吗? @ruizheng20

> @hannlp 目前感觉效果没有子牙的好 这个倒还正常吧,毕竟跟训练的各因素有很大的关系,但是我这个好像有点不对劲了,老哥能帮我试一下我的样例吗?我想对一下输出,看看是哪里出了问题

> @hannlp 哈哈哈老哥我是用的你的代码 输出和我的一致吗?

非常感谢作者回复,之前试过在prompt后面也加,影响不大。不知道作者有没有试用我的代码,如果输出是一致的,那可能就是跟模型准确率本身不够高有关系了,话说reward model确实还挺难做的。再次感谢作者,期待part 2。