CDial-GPT icon indicating copy to clipboard operation
CDial-GPT copied to clipboard

关于计算评价指标

Open huanghonggit opened this issue 4 years ago • 4 comments

请问已经生成STC_result.txt,想生成像Readme 评价指标表格中的 PPL | BLEU-2 | BLEU-4 | Dist-1 | Dist-2 | Greedy Matching | Embedding Average 这些值,请问你们是怎么计算的?

huanghonggit avatar Feb 23 '21 03:02 huanghonggit

您看下历史的issue, 这些指标的计算方式之前有人问过#53

lemon234071 avatar Feb 23 '21 05:02 lemon234071

您好,请问在评测指标中(infer.py)中的超参数,您设置的max_history是多少,我在评测中,max_history是30,top_p是0,temperate是1,导致bleu2是34.多,bleu4是17点多,所以想请问一下您设置的max_history是多少,以及还想确认一下其他的参数,看看是不是参数的问题,测试集采用的是stc_test.json。

Ultraman-Orb avatar Mar 21 '21 13:03 Ultraman-Orb

您好,请问在评测指标中(infer.py)中的超参数,您设置的max_history是多少,我在评测中,max_history是30,top_p是0,temperate是1,导致bleu2是34.多,bleu4是17点多,所以想请问一下您设置的max_history是多少,以及还想确认一下其他的参数,看看是不是参数的问题,测试集采用的是stc_test.json。

论文里有报呀,用的STC只有pair级别数据, 所以max_history不影响结果, top p 0.9, temperature 0.7。

lemon234071 avatar Mar 21 '21 13:03 lemon234071

请问已经生成STC_result.txt,想生成像Readme 评价指标表格中的 PPL | BLEU-2 | BLEU-4 | Dist-1 | Dist-2 | Greedy Matching | Embedding Average 这些值,请问你们是怎么计算的?

请问你评测指标的代码的结果符合论文里的了吗,可以分享一下吗,我的一直些问题。

zhao1402072392 avatar Feb 09 '22 16:02 zhao1402072392