CDial-GPT
CDial-GPT copied to clipboard
关于 Greedy Matching Embedding Average问题,AIlab的向量都是字向量
AILab的向量都是中文词向量,而在STC数据集生成的都是以字为单位,请问您在测试的时候,是将STC_test和模型生成的文本转换成词的形式计算,还是没经过分词处理,直接计算Embedding Average和Greedy Matching
jieba.cut(seq.replace(" ", ""))
不好意思,还有一个问题想请教一下,这个贪婪匹配算法到底是谁和谁比较,举个测试集里的例子。比如说,post:“姐妹们在这么艰苦的情况下给你们加油,你们争气吖” label(所对应的回复):”哈哈、不知道看快女的多还是看男篮的多呢。“ 模型生成的语句y:”加油加油!别被热死!“论文中的是post和y匹配,而我在网上查到的说法有的是label和y的匹配,我个人也偏向是label和y匹配,因为这个指标的目的不就是衡量生成的话语与label(参考话语)之间的相似度吗?如果是post和y就是衡量输入与输出是否合理,单独用这余弦相似度也不可能测出输入与输出是否合理。
这里应该是和ground truth比较,你看的哪个论文?我猜他是以计算上下文的关系为目的。
we adopted Greedy Matching to evaluate the relevance between posts and generated responses at the word level and Embedding Average at the sentence level. We also present the perplexity of different models except GPT2-chichat which has different vocabularies with others. 这个项目所对应的论文。
we adopted Greedy Matching to evaluate the relevance between posts and generated responses at the word level and Embedding Average at the sentence level. We also present the perplexity of different models except GPT2-chichat which has different vocabularies with others. 这个项目所对应的论文。
这里应该是和ground truth比较,你看的哪个论文?我猜他是以计算上下文的关系为目的。
@Ultraman-Orb 你好请问ground truth中存在英文,这种你是怎么对其进行分词的呢?