knows issues

Results 5 issues of


knows

如何提高性能，爬取一段时间后节点增加速度变慢

如题，neo4j数据库中大概花了3个小时达到9w个节点，然后节点增加得就非常缓慢了，该如何优化呢？速率曲线大概是这样 ![image](https://user-images.githubusercontent.com/18135822/89863000-ade4df80-dbdb-11ea-8a2d-953b833f3d8c.png) 因为部署在阿里云主机上内存有限，用bloomfilter替代了代码中的set去重，并-s JOBDIR= 在磁盘上

关于inference的效率问题

https://github.com/autoliuweijie/FastBERT/blob/5f9e98bc87b577487771f9dffceb386b5c0107d3/run_fastbert.py#L132 我觉得推理性能慢不是因为nozero。看代码实现，实际上相当于每过一层transformer encoder，就在当前这个batch剔除掉过于简单的样本 ,也就是batchsize变得更小，然而只要有一个样本到达最后一层，耗时都会比原来bert要多。有没有办法能够更灵活的调度需要计算的样本，比如建立一个pool，进入到第10层之后的都放到一个池子里，一起调度，让每一层计算的batchsize固定，这样充分利用显卡资源的话推理起来应该会快很多。

写的很好，期待更新

the data in google drive is not available

could you please provide me a new one? thank you.

Chatbot_Retrieval_model中的QA文件夹下utils.py中的POS_WEIGHT是如何得到的

https://github.com/charlesXu86/Chatbot_Retrieval/blob/5249957f61392a93a296b00e440aac04d0c52992/Chatbot_Retrieval_model/QA/utils.py#L21-L30 这个词性权重该如何得到呢？这种使用词性权重是通用的做法吗，我在实习的公司也见到他们要使用句子中每个词的词性，但是不知道具体是如何做的 https://github.com/charlesXu86/Chatbot_Retrieval/blob/5249957f61392a93a296b00e440aac04d0c52992/Chatbot_Retrieval_model/QA/utils.py#L107-L122 下面这种计算相似度的方式和用jaccard，bm25，embedding余弦相似度结合相比会更好吗