LLM-TPU deepseek7b模型加载速度疑惑

您好，按照本仓库文档配置环境，运行deepseek-r1-distill-qwen-7b模型加载平均用时在80-90s，这正常吗；有没有什么办法提升?另外画框部分是什么原因导致的，正常吗？设备：AIBox1684x

Feb 27 '25 07:02 wcool1

模型加载时间不太正常。框内是正常的，因为做了embedding_disk优化，去掉了embedding层。没有vit层是因为只有多模态有vit

Mar 03 '25 03:03 fangz-ai

模型加载时间不太正常。框内是正常的，因为做了embedding_disk优化，去掉了embedding层。没有vit层是因为只有多模态有vit

正常情况是多快？那您知道加载这么慢可能的原因吗

Mar 05 '25 09:03 wcool1

模型加载时间不太正常。框内是正常的，因为做了embedding_disk优化，去掉了embedding层。没有vit层是因为只有多模态有vit

我也想请教一下有关模型加载时间的问题。目前我测试的 7B 模型加载时间都在 100~120s 内，而 2B 左右的模型不超过 10s。debug 的等待时间很长

Mar 06 '25 06:03 hebangwen

经过这段时间的使用，我认为这个时间是合理的。模型加载时间由两个参数决定：1、磁盘的读取带宽；2、Linux 的磁盘缓存机制。

目前 aibox-1684x 的磁盘顺序读取带宽为 50MBps 左右，deepseek-r1-distill-qwen-7b/qwen2_w4bf16_seq2048_20250131_203910.bmodel 这个文件的大小为 3.7GB，对应的带宽为 3.7*1024 / 92 = 41MBps，接近最大值。

如果文件比较小，可以被 Linux 缓存到内存中，那么此时模型读取将会变得非常快，带宽大概是 500MBps，读取时间为 7.5s 。可以使用 free -m 查看 buff 的大小，即磁盘缓存的大小；磁盘缓存也是可以被清除的，可以搜索一下。

Apr 24 '25 02:04 hebangwen

盒子类产品一般存在了emmc中，不同厂家的1684x设备emmc读取速度不一样(50-200MB/s)，如果有nvme接口的盘，读取速度会在1-2GB/s

May 15 '25 02:05 baifengbai