Results 50 comments of ZTurboX

> @ZTurboX , you can refer to #789 torch model not has this problem, but convert to onnx model has this problem even set batch_size and max_length

> @ZTurboX 我记得这个应该是ONNX自己的问题。我之前使用onnx部署其他的模型的时候,在GPU里面的表现也是这样。 另外,我想问下。你使用onnx推理之后,GPU中,效率和原来的torch相比,有提升吗?我转的onnx模型,效率方面并没有提升~~~~ 有提升

> > > bge-rerank-base用onnx部署 显存持续增长 不会释放,直到溢出 > > > > > > 请问您解决了这个问题吗,我在进行压测的时候也发现了它不会释放 > > 已解决 请问怎么解决的

> 我测了一下没什么问题: > > > 请参考我的环境: > > ``` > absl-py==2.1.0 > accessible-pygments==0.0.4 > addict==2.4.0 > aiofiles==23.2.1 > aiohttp==3.8.4 > aiosignal==1.3.1 > aistudio-sdk==0.1.7 > alabaster==0.7.16 > aliyun-python-sdk-core==2.15.0 > aliyun-python-sdk-kms==2.16.2 >...

> https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k 我是把原来的不带思维链的sft数据跟上面那个带思维链的sft数据混合一起训,可以试一试 不带思维链的数据中reasoning_content置空吗

> It's already supported since [#11578](https://github.com/vllm-project/vllm/pull/11578). Do you have issues using it? I use this command: CUDA_VISIBLE_DEVICES=1,2 python -m vllm.entrypoints.openai.api_server --tensor-parallel-size 2 --model /data/models/deepseek-vl2 --served-model-name deepseek-vl2 --max-model-len 4096 --port 9030...

> You need to escape the JSON string passed to `--hf-overrides` has the same error: CUDA_VISIBLE_DEVICES=1,2 python -m vllm.entrypoints.openai.api_server --tensor-parallel-size 2 --model /data/models/deepseek-vl2 --served-model-name deepseek-vl2 --max-model-len 4096 --port 9030 --hf-overrides...

> 这个样本的左右块间距有些大了,如果中间通过`......`链接可能会好一些 有什么技术手段建议可以处理这种badcase吗

> 让agent写代码,写完运行就能得到图。 这个agent要怎么实现