KunWangR
KunWangR
想问下作者,问题模板是怎样抽取的?用了什么算法,抽取模板后如何组织、存储和应用这些模板的?
fine tune的时候是句对数据(text_a,text_b,label),如何用Bert_base预测两个句子的相似度?bert_client的输入是什么?
目前发布的albert_tiny模型仅有4层,虽然模型体量小,但模型效果与其他模型还是有差距。albert_base有12层,但模型整体规模比较大,预测效率还是与bert_base、roberta_base预测效率相近。所以希望作者可以发布6层的albert模型,以适应更多的任务需求。谢谢。
感觉ELMO模型accuracy计算有点问题,详细情况见下图。  因为计算loss需要用到forward_output, 计算forward_pred需要用到forward_projection,因为argsoftmax需要从词表维度中选择最可能的词id,代码中是从elmo_hidden维度选择最可能的hidden id。
Pooling阶段,对BiLSTM的输出做pooling操作,应该是在句子长度的这个维度,也就是维度1上,不是维度2.