sentence-similarity icon indicating copy to clipboard operation
sentence-similarity copied to clipboard

有关distance计算出来后得疑问

Open yanhan19940405 opened this issue 5 years ago • 6 comments

你好,我看了您得源码。既然模型定义输入两个问题对[left,right],输出的是经过隐藏层的曼哈顿距离distance,为什么可以直接用文本相似的标签Y作为模型训练的label呢?具体distance与标签y是如何关联起来的呢?麻烦指点下,谢谢

yanhan19940405 avatar Jun 07 '19 01:06 yanhan19940405

我们训练的目的不就是为了让测试集中label=1的两个句子相似度变高吗?曼哈顿也好,余弦也好,既然trainset的label=1,我们就认为这两个句子是绝对相似的啊。。没什么问题。。

Liuyingnan0704 avatar Aug 15 '19 08:08 Liuyingnan0704

谢谢,已经理解了,这是按照回归的思想做的哇

---原始邮件--- 发件人: "Liuyingnan0704"[email protected] 发送时间: 2019年8月15日(星期四) 下午4:19 收件人: "yanqiangmiffy/sentence-similarity"[email protected]; 抄送: "Author"[email protected];"Forever"[email protected]; 主题: Re: [yanqiangmiffy/sentence-similarity] 有关distance计算出来后得疑问 (#5)

我们训练的目的不就是为了让测试集中label=1的两个句子相似度变高吗?曼哈顿也好,余弦也好,既然trainset的label=1,我们就认为这两个句子是绝对相似的啊。。没什么问题。。

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.

yanhan19940405 avatar Aug 15 '19 08:08 yanhan19940405

我有一个问题,训练完之后的验证,作者设置的多少的阈值呢? 就是大于多少,我们认为是1呢。。 还有就是,关于evalute.py最后得到的y,这个应该是验证集根据模型计算出的数据,我执行了两次,为什么两次的出来的结果不一样呢。。

Liuyingnan0704 avatar Aug 15 '19 09:08 Liuyingnan0704

发现test也好,dev也好,并没有label啊。。一开始还在想,这test-acc是怎么测的。。去数据集网站才看到,是后来公布的测试集label(一个csv文件),根据数据来看是1w对的那个dev集,并不是testset的label,而且,是1w对的label都是0。。如果我说的对的话,那为什么每次evalute的结果都是不一样的呢?相似度的阈值时多少呢(大于多少认为是1呢)?。。等待作者解答。。

Liuyingnan0704 avatar Aug 15 '19 09:08 Liuyingnan0704

我的理解是两种思路一种是分类器,不需要最后那层相似度计算,直接分类。另一种是有相似度量,那这就是预测任务。初始标签0或者1表示认为标定相似度值

---原始邮件--- 发件人: "Liuyingnan0704"[email protected] 发送时间: 2019年8月15日(星期四) 下午5:39 收件人: "yanqiangmiffy/sentence-similarity"[email protected]; 抄送: "Author"[email protected];"Forever"[email protected]; 主题: Re: [yanqiangmiffy/sentence-similarity] 有关distance计算出来后得疑问 (#5)

发现test也好,dev也好,并没有label啊。。一开始还在想,这test-acc是怎么测的。。去数据集网站才看到,是后来公布的测试集label(一个csv文件),根据数据来看是1w对的那个dev集,并不是testset的label,而且,是1w对的label都是0。。如果我说的对的话,那为什么每次evalute的结果都是不一样的呢?相似度的阈值时多少呢(大于多少认为是1呢)?。。等待作者解答。。

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.

yanhan19940405 avatar Aug 15 '19 09:08 yanhan19940405

发现test也好,dev也好,并没有label啊。。一开始还在想,这test-acc是怎么测的。。去数据集网站才看到,是后来公布的测试集label(一个csv文件),根据数据来看是1w对的那个dev集,并不是testset的label,而且,是1w对的label都是0。。如果我说的对的话,那为什么每次evalute的结果都是不一样的呢?相似度的阈值时多少呢(大于多少认为是1呢)?。。等待作者解答。。 老哥你现在知道标准了吗

sixmilesroad avatar Oct 29 '20 07:10 sixmilesroad