Keyword-BERT
Keyword-BERT copied to clipboard
关于模型结构和 kw_mask
1. 模型结构
看论文中的描述,关键字注意力层和常规 transformer 层分别接在 11 层常规 transformer 之后,但是看源码中,貌似并不是这样,也就是 modeling.py 的第 212、226 行,类似于一个双塔结构,它们共享的只有 embedding 层?
2. kw_mask attention
在生成这个 mask 的过程中,cls 和 sep 三行中如果不经过特殊处理应该在进入 softmax 之前全部被填充成 -10000,那这三行在进行 softmax 计算的过程中不会发生除 0 错误吗?
谢谢
Q1.并不是双塔,底层的11个layer参数都是share的,用 AUTO_REUSE 实现。见 917行向后 Q2.不会
你好,我想请问下你跑出来的数据格式是怎么样的?然后输入数据是怎么样的?你的关键词用的是源代码提供的方法吗? 使源代码产生的数据是prediction[0.5555,0.4445],类似这种格式,他代表了什么?如果prediction[0]代表标签为0的概率,如果prediction[1]代表标签为1的概率,但是源代码跑出来的数据都是prediction[0]>prediction[1],那模型预测均为0,是为什么那?
你好,我想请问下你跑出来的数据格式是怎么样的?然后输入数据是怎么样的?你的关键词用的是源代码提供的方法吗? 使源代码产生的数据是prediction[0.5555,0.4445],类似这种格式,他代表了什么?如果prediction[0]代表标签为0的概率,如果prediction[1]代表标签为1的概率,但是源代码跑出来的数据都是prediction[0]>prediction[1],那模型预测均为0,是为什么那?
我并没有使用这个 repo 的代码,关键词我用的百度的 LAC 提取的
那你使用源代码做了语义匹配计算?那他输出的文件test_results中两列数据是代表匹配0和不匹配1的概率值?还是 其他值那?
阈值可以自己指定,比如coloums1>0.65判定为label=0 @zhx970928
你好,我想请问下你跑出来的数据格式是怎么样的?然后输入数据是怎么样的?你的关键词用的是源代码提供的方法吗? 使源代码产生的数据是prediction[0.5555,0.4445],类似这种格式,他代表了什么?如果prediction[0]代表标签为0的概率,如果prediction[1]代表标签为1的概率,但是源代码跑出来的数据都是prediction[0]>prediction[1],那模型预测均为0,是为什么那?
我并没有使用这个 repo 的代码,关键词我用的百度的 LAC 提取的 我看LAC好像没有直接提供关键词抽取的方案,请问你是用的词语重要性接口(
LAC(mode='rank')
)吗?