Forever

Results 5 comments of Forever

谢谢,已经理解了,这是按照回归的思想做的哇 ---原始邮件--- 发件人: "Liuyingnan0704" 发送时间: 2019年8月15日(星期四) 下午4:19 收件人: "yanqiangmiffy/sentence-similarity"; 抄送: "Author";"Forever"; 主题: Re: [yanqiangmiffy/sentence-similarity] 有关distance计算出来后得疑问 (#5) 我们训练的目的不就是为了让测试集中label=1的两个句子相似度变高吗?曼哈顿也好,余弦也好,既然trainset的label=1,我们就认为这两个句子是绝对相似的啊。。没什么问题。。 — You are receiving this because you authored the thread. Reply to this...

我的理解是两种思路一种是分类器,不需要最后那层相似度计算,直接分类。另一种是有相似度量,那这就是预测任务。初始标签0或者1表示认为标定相似度值 ---原始邮件--- 发件人: "Liuyingnan0704" 发送时间: 2019年8月15日(星期四) 下午5:39 收件人: "yanqiangmiffy/sentence-similarity"; 抄送: "Author";"Forever"; 主题: Re: [yanqiangmiffy/sentence-similarity] 有关distance计算出来后得疑问 (#5) 发现test也好,dev也好,并没有label啊。。一开始还在想,这test-acc是怎么测的。。去数据集网站才看到,是后来公布的测试集label(一个csv文件),根据数据来看是1w对的那个dev集,并不是testset的label,而且,是1w对的label都是0。。如果我说的对的话,那为什么每次evalute的结果都是不一样的呢?相似度的阈值时多少呢(大于多少认为是1呢)?。。等待作者解答。。 — You are receiving this because you authored the thread. Reply to this...

最后两个评分0.78是重复的

但是有很多[Query,anwser_list]存在这样的情况,这样的话是否会导致模型训练不出差异性的情况呢?目前我的六组答案,分别按照human、chatgpt、模型随机采样四轮的思路来构建的,而您的prompt仍然存在重复现象,我就想怎么剔除这样的样本呢

没有关系,只要分数有区分就可以了 ---原始邮件--- 发件人: ***@***.***> 发送时间: 2023年6月27日(周二) 下午2:37 收件人: ***@***.***>; 抄送: ***@***.******@***.***>; 主题: Re: [GanjinZero/RRHF] 对于重复score答案样本的处理疑问 (Issue #25) 你好,有几个问题想咨询一下:1. 这个"scores"是否对范围有要求,比如"scores": [1, 2, 3, 4, 5]} 是否需要归一化至0-1之间。2. responses的个数需要固定吗?比如有的样本有3个responses,有的为6个responses。感谢解答 — Reply to this...