Zhu Jihuai

Results 8 comments of Zhu Jihuai

> 信息不是很足。最好能提供debug日志。 > > 开启的方式为,首先 export TM_DEBUG_LEVEL=DEBUG, > > 然后创建pipeline (log_level='DEBUG') 或者 server (--log-level DEBUG) 的时候将日志等级设置为 DEBUG 这是卡住时的信息输出: 2024-08-09 16:01:36,049 - lmdeploy - INFO - session_id=5, history_tokens=0, input_tokens=2633, max_new_tokens=512, seq_start=True,...

> 信息不是很足。最好能提供debug日志。 > > 开启的方式为,首先 export TM_DEBUG_LEVEL=DEBUG, > > 然后创建pipeline (log_level='DEBUG') 或者 server (--log-level DEBUG) 的时候将日志等级设置为 DEBUG turbomind::LlamaAttentionWeight] [TM][DEBUG] bool turbomind::TensorMap::isExist(const string&) const for key: input_query [TM][DEBUG] bool turbomind::TensorMap::isExist(const string&)...

> ``` > [TM][DEBUG] invokeGenericActivation 2639 10240 0 > [TM][DEBUG] 52780 512 > [TM][DEBUG] run syncAndCheck at /lmdeploy/src/turbomind/kernels/activation_kernels.cu:281 > ``` > > 这下面没有了么? 对,一只卡在这

> 用tp了么? > > 启动程序之前,`export CUDA_LAUNCH_BLOCKING=1`,先设置环境变量,然后再跑的结果如何呢? 用了tp=4,A100,不用的话模型放不下,加了之后还是一样的错误

> 创建pipeline / server的时候,cache_max_entry_count 设成0.1来减少kvcache的用量试试看的。vision的部分复用的上游的代码,感觉出问题的概率不太大,这里怀疑可能是显存不足导致的,模型启动后的剩余显存有多少呢。 已解决,4张A100 tp==4出错,但是2张tp=2可以

> 我觉得不算解决,并不清楚原因是什么 会不会是tp数不同,模型split策略不同导致的

应该是安装的fastdeploy不对,应该安装fastdeploy-python-gpu

多张图你是怎么处理的,我用这个格式穿入多张图,模型似乎只能注意到其中一张图