LLM-TPU icon indicating copy to clipboard operation
LLM-TPU copied to clipboard

deepseek7b模型加载速度疑惑

Open wcool1 opened this issue 1 year ago • 5 comments

您好,按照本仓库文档配置环境,运行deepseek-r1-distill-qwen-7b模型加载平均用时在80-90s,这正常吗;有没有什么办法提升?另外画框部分是什么原因导致的,正常吗? 设备:AIBox1684x Image

wcool1 avatar Feb 27 '25 07:02 wcool1

模型加载时间不太正常。框内是正常的,因为做了embedding_disk优化,去掉了embedding层。没有vit层是因为只有多模态有vit

fangz-ai avatar Mar 03 '25 03:03 fangz-ai

模型加载时间不太正常。框内是正常的,因为做了embedding_disk优化,去掉了embedding层。没有vit层是因为只有多模态有vit

正常情况是多快?那您知道加载这么慢可能的原因吗

wcool1 avatar Mar 05 '25 09:03 wcool1

模型加载时间不太正常。框内是正常的,因为做了embedding_disk优化,去掉了embedding层。没有vit层是因为只有多模态有vit

我也想请教一下有关模型加载时间的问题。目前我测试的 7B 模型加载时间都在 100~120s 内,而 2B 左右的模型不超过 10s。debug 的等待时间很长

hebangwen avatar Mar 06 '25 06:03 hebangwen

经过这段时间的使用,我认为这个时间是合理的。模型加载时间由两个参数决定:1、磁盘的读取带宽;2、Linux 的磁盘缓存机制。

目前 aibox-1684x 的磁盘顺序读取带宽为 50MBps 左右,deepseek-r1-distill-qwen-7b/qwen2_w4bf16_seq2048_20250131_203910.bmodel 这个文件的大小为 3.7GB,对应的带宽为 3.7*1024 / 92 = 41MBps,接近最大值。

如果文件比较小,可以被 Linux 缓存到内存中,那么此时模型读取将会变得非常快,带宽大概是 500MBps,读取时间为 7.5s 。可以使用 free -m 查看 buff 的大小,即磁盘缓存的大小;磁盘缓存也是可以被清除的,可以搜索一下。

hebangwen avatar Apr 24 '25 02:04 hebangwen

盒子类产品一般存在了emmc中,不同厂家的1684x设备emmc读取速度不一样(50-200MB/s),如果有nvme接口的盘,读取速度会在1-2GB/s

baifengbai avatar May 15 '25 02:05 baifengbai