DataTerminatorX

Results 13 comments of DataTerminatorX

serving的并发和模型关系不大,和框架有关。你可以试试nvidia的transformer加速模块

从理论分析看,第二种会好一些,因为dense所能表达的信息量比简单的fusion trick 要好 从指标看,提升细微,反而dense引入额外的参数量对inference 速度有所牺牲,所以综合考虑,在上线时依然用的第一种

感谢指正,因为是实验代码,有些不完美 1. 确实重复了,删掉即可 2. 完全可以 3. fusion_rep 我们尝试了很多方法,代码中被comment掉的部分即是我们做的对比实验(比如不同rep方法、是否加dense layer),你可以按到论文描述的,来修改我的代码,很easy 4. 同上。 展开一下,我公众号文章里有提到把 keyword attention layer 加在不同位置,也可以修改我的 transformer_model_kw 来实现