Ultraman-Orb
Ultraman-Orb
不好意思,还有一个问题想请教一下,这个贪婪匹配算法到底是谁和谁比较,举个测试集里的例子。比如说,post:“姐妹们在这么艰苦的情况下给你们加油,你们争气吖” label(所对应的回复):”哈哈、不知道看快女的多还是看男篮的多呢。“ 模型生成的语句y:”加油加油!别被热死!“论文中的是post和y匹配,而我在网上查到的说法有的是label和y的匹配,我个人也偏向是label和y匹配,因为这个指标的目的不就是衡量生成的话语与label(参考话语)之间的相似度吗?如果是post和y就是衡量输入与输出是否合理,单独用这余弦相似度也不可能测出输入与输出是否合理。
we adopted Greedy Matching to evaluate the relevance between posts and generated responses at the word level and Embedding Average at the sentence level. We also present the perplexity of...
we adopted Greedy Matching to evaluate the relevance between posts and generated responses at the word level and Embedding Average at the sentence level. We also present the perplexity of...
您好,请问在评测指标中(infer.py)中的超参数,您设置的max_history是多少,我在评测中,max_history是30,top_p是0,temperate是1,导致bleu2是34.多,bleu4是17点多,所以想请问一下您设置的max_history是多少,以及还想确认一下其他的参数,看看是不是参数的问题,测试集采用的是stc_test.json。