FlagEmbedding
FlagEmbedding copied to clipboard
[Reranker效率问题疑惑] 发现Reranker的一个效率问题
各位大神好。 我在测试reranker的效率时,发现一个问题。如下:
Reranker源码:./FlagEmbedding/flag_reranker.py
测试设备:GPU(A800)
测试数据量:1000条
测试数据的token长度:2048
测试batch:4
描述:针对 self.tokenizer 和 self.model 进行了时间监控,如图:
测试出来的相关结果如图:
从这个结果来看,仿佛是 文本转token耗时较长(再细致拆分发现,是token从CPU转GPU耗时较长)
但是!当我把scores = self.model(**inputs, return_dict=True).logits.view(-1, ).float() 注释之后,在统计效率,理论上总耗时应该就是减去模型的耗时(4秒)。
但是我发现,跑出来的耗时却是:
token转换竟然基本不占时间。
请问下这个是什么情况啊?