关于distinct-1/2的计算，用了多少句子/conversations？

Open ZenzenDatabase opened this issue 3 years ago • 1 comments

is:issue is:open 你好，我想问一下，在计算distinct-1/2的时候，用了多少句子和多少词汇，是全部test 数据吗，还是选择了top 10？ 50？200？我们想知道这个分母是基于多少数据计算的。我们主要是为了做对照实验，想知道这个重要的数据信息。谢谢

May 06 '22 08:05 ZenzenDatabase

200个话题，各进行一个 self-chat 每个多轮self-chat，除开始的话题以外，模型生成了9个 utterance，计算 distinct 是根据 200 * 9个 utterance 来计算的

对于 distinct-1、distinct-2，分母分别是200 * 9个 utterance 包含的 unigram 和 bigram 数量

May 07 '22 03:05 sserdoubleh