Keyword-BERT 关于模型结构和 kw

1. 模型结构

看论文中的描述，关键字注意力层和常规 transformer 层分别接在 11 层常规 transformer 之后，但是看源码中，貌似并不是这样，也就是 modeling.py 的第 212、226 行，类似于一个双塔结构，它们共享的只有 embedding 层？

2. kw_mask attention

在生成这个 mask 的过程中，cls 和 sep 三行中如果不经过特殊处理应该在进入 softmax 之前全部被填充成 -10000，那这三行在进行 softmax 计算的过程中不会发生除 0 错误吗？

谢谢

Feb 27 '21 11:02 HuipengXu

Q1.并不是双塔，底层的11个layer参数都是share的，用 AUTO_REUSE 实现。见 917行向后 Q2.不会

Mar 02 '21 09:03 DataTerminatorX

你好，我想请问下你跑出来的数据格式是怎么样的？然后输入数据是怎么样的？你的关键词用的是源代码提供的方法吗？使源代码产生的数据是prediction[0.5555，0.4445]，类似这种格式，他代表了什么？如果prediction[0]代表标签为0的概率，如果prediction[1]代表标签为1的概率，但是源代码跑出来的数据都是prediction[0]>prediction[1],那模型预测均为0，是为什么那？

Mar 26 '21 07:03 zhx970928

你好，我想请问下你跑出来的数据格式是怎么样的？然后输入数据是怎么样的？你的关键词用的是源代码提供的方法吗？使源代码产生的数据是prediction[0.5555，0.4445]，类似这种格式，他代表了什么？如果prediction[0]代表标签为0的概率，如果prediction[1]代表标签为1的概率，但是源代码跑出来的数据都是prediction[0]>prediction[1],那模型预测均为0，是为什么那？

我并没有使用这个 repo 的代码，关键词我用的百度的 LAC 提取的

Mar 30 '21 07:03 HuipengXu

那你使用源代码做了语义匹配计算？那他输出的文件test_results中两列数据是代表匹配0和不匹配1的概率值？还是其他值那？

Mar 30 '21 07:03 zhx970928

阈值可以自己指定，比如coloums1>0.65判定为label=0 @zhx970928

Sep 22 '22 07:09 kakuibeyond

你好，我想请问下你跑出来的数据格式是怎么样的？然后输入数据是怎么样的？你的关键词用的是源代码提供的方法吗？使源代码产生的数据是prediction[0.5555，0.4445]，类似这种格式，他代表了什么？如果prediction[0]代表标签为0的概率，如果prediction[1]代表标签为1的概率，但是源代码跑出来的数据都是prediction[0]>prediction[1],那模型预测均为0，是为什么那？

我并没有使用这个 repo 的代码，关键词我用的百度的 LAC 提取的我看LAC好像没有直接提供关键词抽取的方案，请问你是用的词语重要性接口（LAC(mode='rank')）吗？

Sep 22 '22 08:09 kakuibeyond

Keyword-BERT
Keyword-BERT copied to clipboard

关于模型结构和 kw_mask

1. 模型结构

2. kw_mask attention

Keyword-BERT Keyword-BERT copied to clipboard

关于模型结构和 kw_mask

1. 模型结构

2. kw_mask attention

Keyword-BERT
Keyword-BERT copied to clipboard