bingo

Results 12 comments of bingo

How to recover the file's ownership? my colleague wants to KILL me !!!

I had the same problem! performace: triton-nightly < triton2.x.x < triton2.0.0.dev20221202

> > I had the same problem! performace: triton-nightly < triton2.x.x < triton2.0.0.dev20221202 > > @bingo787 Can you share your recent example that can reproduce this performance regression? > >...

大佬,为什么opencv4.7不行,要opencv4.5?

> > 大佬,为什么opencv4.7不行,要opencv4.5? > > C++程序,使用opencv4.7推理是可以的。不过需要注意在net.forward之前加上net.enableWinograd(false); > > 原因,可以去看我的csdn博客文章 https://blog.csdn.net/nihate/article/details/112731327 我是在 net = cv::dnn::readNetFromONNX(modelPath); 时候报错; OpenCV fails to import ONNX model: error: (-215:Assertion failed) !isDynamicShape in function 'cv::dnn::dnn4_v20220524::ONNXImporter::parseShape' 请教下您遇到过吗

I have the same problem at commit:1e4603d2e8264d61a006a1a27258214c15d465ce and I use trories llama

> @bingo787 你如果存储文件的权重是分片足够小,理论上应该不会OOM。或者把权重文件切细小一点也可以。 跟权重的分片没关系,TGI的8个进程是独立的,每个进程都要读全量权重到内存(变量)中,然后透传给Lightllm。 我们验证过8卡跑65B的模型,需要8*130G的内存,一般服务器没有那么多内存,一定会发生OOM。 你们可以跑一下TGI+Lightllm的组合,问题必现。

> @bingo787 我们尝试过把TGI 跟LightLLM 加载,你们不需要再TGI里在进行这个权重的加载了,直接走默认LightLLM 的参数加载也是分片读取的,我尝试过在128G的内存环境下8卡读取70B的 llama模型,不会出现OOM 现象 感谢回复!按照你说的流程确实没有问题, 因为直接把模型的本地目录透传给lightllm了,真正加载权重的任务全部交给lightllm了。 但是我们想一下另一种场景: 我需要在TGI里面对权重做一些客制化的动作(比如模型文件解密),这种情况lightllm如果不提供load_from_weight_dict之类的接口, 好像没法处理?或者有更好的方式吗?

@shihaobai 我提了个PR,https://github.com/ModelTC/lightllm/pull/318 帮忙review下。