Knover icon indicating copy to clipboard operation
Knover copied to clipboard

关于distinct-1/2的计算,用了多少句子/conversations?

Open ZenzenDatabase opened this issue 3 years ago • 1 comments

is:issue is:open 你好,我想问一下,在计算distinct-1/2的时候,用了多少句子和多少词汇,是全部test 数据吗,还是选择了top 10? 50?200?我们想知道这个分母是基于多少数据计算的。我们主要是为了做对照实验,想知道这个重要的数据信息。谢谢

ZenzenDatabase avatar May 06 '22 08:05 ZenzenDatabase

200个话题,各进行一个 self-chat 每个 多轮self-chat,除开始的话题以外,模型生成了9个 utterance,计算 distinct 是根据 200 * 9个 utterance 来计算的

对于 distinct-1、distinct-2,分母分别是200 * 9个 utterance 包含的 unigram 和 bigram 数量

sserdoubleh avatar May 07 '22 03:05 sserdoubleh