平均耗时疑惑
批量送入不同size的inputs,无论是embedding还是reranker,最后平均到每条数据的耗时都几乎一样,这是为啥? 例如inputs分别输入20、40、60,总耗时正比例递增,最后每条数据的耗时相似。 按理说不是batch越大,矩阵运算会节约一点时间,大batch的单条平均耗时会更小吗?有点不明白,望解惑。
计算时间与机器性能相关。同时推理前需要进行tokenizer,这会占据一定时间。
独占3090卡应该显存是够的,tokenizer我也单独测了,应该是小头,不至于使得整体耗时正比例增加。现在基本就是比如:bs20耗时100,bs40耗时200,bs60耗时300,基本正比,单位耗时一致,搞得像里面是串行一样。
| | 汤甘 | | @.*** | ---- 回复的原邮件 ---- | 发件人 | @.> | | 发送日期 | 2024年03月15日 18:55 | | 收件人 | FlagOpen/FlagEmbedding @.> | | 抄送人 | shuiyigt @.>, Author @.> | | 主题 | Re: [FlagOpen/FlagEmbedding] 平均耗时疑惑 (Issue #551) |
计算时间与机器性能相关。同时推理前需要进行tokenizer,这会占据一定时间。
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>