FlagEmbedding 平均耗时疑惑

批量送入不同size的inputs，无论是embedding还是reranker，最后平均到每条数据的耗时都几乎一样，这是为啥？例如inputs分别输入20、40、60，总耗时正比例递增，最后每条数据的耗时相似。按理说不是batch越大，矩阵运算会节约一点时间，大batch的单条平均耗时会更小吗？有点不明白，望解惑。

Mar 15 '24 09:03 shuiyigt

计算时间与机器性能相关。同时推理前需要进行tokenizer，这会占据一定时间。

Mar 15 '24 10:03 staoxiao

独占3090卡应该显存是够的，tokenizer我也单独测了，应该是小头，不至于使得整体耗时正比例增加。现在基本就是比如：bs20耗时100，bs40耗时200，bs60耗时300，基本正比，单位耗时一致，搞得像里面是串行一样。

| | 汤甘 | | @.*** | ---- 回复的原邮件 ---- | 发件人 | @.> | | 发送日期 | 2024年03月15日 18:55 | | 收件人 | FlagOpen/FlagEmbedding @.> | | 抄送人 | shuiyigt @.>, Author @.> | | 主题 | Re: [FlagOpen/FlagEmbedding] 平均耗时疑惑 (Issue #551) |

计算时间与机器性能相关。同时推理前需要进行tokenizer，这会占据一定时间。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

Mar 15 '24 10:03 shuiyigt