Keyword-BERT icon indicating copy to clipboard operation
Keyword-BERT copied to clipboard

关于模型结构和 kw_mask

Open HuipengXu opened this issue 3 years ago • 6 comments

1. 模型结构

看论文中的描述,关键字注意力层和常规 transformer 层分别接在 11 层常规 transformer 之后,但是看源码中,貌似并不是这样,也就是 modeling.py 的第 212、226 行,类似于一个双塔结构,它们共享的只有 embedding 层?

2. kw_mask attention

在生成这个 mask 的过程中,cls 和 sep 三行中如果不经过特殊处理应该在进入 softmax 之前全部被填充成 -10000,那这三行在进行 softmax 计算的过程中不会发生除 0 错误吗?

谢谢

HuipengXu avatar Feb 27 '21 11:02 HuipengXu

Q1.并不是双塔,底层的11个layer参数都是share的,用 AUTO_REUSE 实现。见 917行向后 Q2.不会

DataTerminatorX avatar Mar 02 '21 09:03 DataTerminatorX

你好,我想请问下你跑出来的数据格式是怎么样的?然后输入数据是怎么样的?你的关键词用的是源代码提供的方法吗? 使源代码产生的数据是prediction[0.5555,0.4445],类似这种格式,他代表了什么?如果prediction[0]代表标签为0的概率,如果prediction[1]代表标签为1的概率,但是源代码跑出来的数据都是prediction[0]>prediction[1],那模型预测均为0,是为什么那?

zhx970928 avatar Mar 26 '21 07:03 zhx970928

你好,我想请问下你跑出来的数据格式是怎么样的?然后输入数据是怎么样的?你的关键词用的是源代码提供的方法吗? 使源代码产生的数据是prediction[0.5555,0.4445],类似这种格式,他代表了什么?如果prediction[0]代表标签为0的概率,如果prediction[1]代表标签为1的概率,但是源代码跑出来的数据都是prediction[0]>prediction[1],那模型预测均为0,是为什么那?

我并没有使用这个 repo 的代码,关键词我用的百度的 LAC 提取的

HuipengXu avatar Mar 30 '21 07:03 HuipengXu

那你使用源代码做了语义匹配计算?那他输出的文件test_results中两列数据是代表匹配0和不匹配1的概率值?还是 其他值那?

zhx970928 avatar Mar 30 '21 07:03 zhx970928

阈值可以自己指定,比如coloums1>0.65判定为label=0 @zhx970928

kakuibeyond avatar Sep 22 '22 07:09 kakuibeyond

你好,我想请问下你跑出来的数据格式是怎么样的?然后输入数据是怎么样的?你的关键词用的是源代码提供的方法吗? 使源代码产生的数据是prediction[0.5555,0.4445],类似这种格式,他代表了什么?如果prediction[0]代表标签为0的概率,如果prediction[1]代表标签为1的概率,但是源代码跑出来的数据都是prediction[0]>prediction[1],那模型预测均为0,是为什么那?

我并没有使用这个 repo 的代码,关键词我用的百度的 LAC 提取的 我看LAC好像没有直接提供关键词抽取的方案,请问你是用的词语重要性接口(LAC(mode='rank'))吗?

kakuibeyond avatar Sep 22 '22 08:09 kakuibeyond