Forever comments

Results 5 comments of


                                            Forever

有关distance计算出来后得疑问

谢谢，已经理解了，这是按照回归的思想做的哇 ---原始邮件--- 发件人: "Liuyingnan0704" 发送时间: 2019年8月15日(星期四) 下午4:19 收件人: "yanqiangmiffy/sentence-similarity"; 抄送: "Author";"Forever"; 主题: Re: [yanqiangmiffy/sentence-similarity] 有关distance计算出来后得疑问 (#5) 我们训练的目的不就是为了让测试集中label=1的两个句子相似度变高吗？曼哈顿也好，余弦也好，既然trainset的label=1，我们就认为这两个句子是绝对相似的啊。。没什么问题。。 — You are receiving this because you authored the thread. Reply to this...

有关distance计算出来后得疑问

我的理解是两种思路一种是分类器，不需要最后那层相似度计算，直接分类。另一种是有相似度量，那这就是预测任务。初始标签0或者1表示认为标定相似度值 ---原始邮件--- 发件人: "Liuyingnan0704" 发送时间: 2019年8月15日(星期四) 下午5:39 收件人: "yanqiangmiffy/sentence-similarity"; 抄送: "Author";"Forever"; 主题: Re: [yanqiangmiffy/sentence-similarity] 有关distance计算出来后得疑问 (#5) 发现test也好，dev也好，并没有label啊。。一开始还在想，这test-acc是怎么测的。。去数据集网站才看到，是后来公布的测试集label（一个csv文件），根据数据来看是1w对的那个dev集，并不是testset的label，而且，是1w对的label都是0。。如果我说的对的话，那为什么每次evalute的结果都是不一样的呢？相似度的阈值时多少呢（大于多少认为是1呢）？。。等待作者解答。。 — You are receiving this because you authored the thread. Reply to this...

对于重复score答案样本的处理疑问

最后两个评分0.78是重复的

对于重复score答案样本的处理疑问

但是有很多[Query，anwser_list]存在这样的情况，这样的话是否会导致模型训练不出差异性的情况呢？目前我的六组答案，分别按照human、chatgpt、模型随机采样四轮的思路来构建的，而您的prompt仍然存在重复现象，我就想怎么剔除这样的样本呢

对于重复score答案样本的处理疑问

没有关系，只要分数有区分就可以了 ---原始邮件--- 发件人: ***@***.***> 发送时间: 2023年6月27日(周二) 下午2:37 收件人: ***@***.***>; 抄送: ***@***.******@***.***>; 主题: Re: [GanjinZero/RRHF] 对于重复score答案样本的处理疑问 (Issue #25) 你好，有几个问题想咨询一下：1. 这个"scores"是否对范围有要求，比如"scores": [1, 2, 3, 4, 5]} 是否需要归一化至0-1之间。2. responses的个数需要固定吗？比如有的样本有3个responses，有的为6个responses。感谢解答 — Reply to this...