刘源 issues

Results 5 issues of


                                            刘源

使用不同方法计算得分出现torch.cuda.OutOfMemoryError: CUDA out of memory.

GPU：4*RTX 4090 24G 代码是： ``` from FlagEmbedding import BGEM3FlagModel model = BGEM3FlagModel('BAAI/bge-m3', use_fp16=True) sentences_1 = ["What is BGE M3?", "Defination of BM25"] sentences_2 = ["BGE M3 is an embedding model...

训练NFANet做图像恢复时，loss为负数

`[01/17 09:57:56] ppgan.engine.trainer INFO: Iter: 1930/3200000 lr: 1.250e-04 loss: -24.167 batch_cost: 0.71843 sec reader_cost: 0.00057 sec ips: 11.13532 images/s eta: 26 days, 14:13:23 [01/17 09:58:03] ppgan.engine.trainer INFO: Iter: 1940/3200000 lr:...

如何能达到论文里说的吞吐量50000多tokens

硬件：H800 PCIE * 8 我使用vllm推理最多只能达到1500tokens/s，batch_size为1024，请问怎样才能达到论文里说的50000多tokens？

InternLM-XComposer2-4KHD-7B 多卡推理报错

机器环境：4 * RTX 4090 运行命令：CUDA_VISIBLE_DEVICES=0,1 python examples/example_chat.py --num_gpus 2 出现如下错误： ` Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████| 2/2 [00:02

[Feature] 对api_server的一些建议

### Motivation 我用lmdeploy serve api_server起了一个推理服务InternVL2-26B，发现了以下问题： 1、设置stream=true时，发现每一条都会有"usage":null的内容，生成最后一个token时，"usage"并没有具体的输入和输出tokens信息，这样的话就没有办法统计流式接口的tokens，我理解这不是标准的openai格式，请各位大佬关注修一下。 2、压测接口时，逐渐增加并发数，发现显存占用一直在变多，不请求也没有清除多余显存占用，建议增加每次请求完成后清理显存占用的操作。 3、服务部署成功后，内存似乎没有释放，free -m 发现有大量的内存在buff/cache里，请各位大佬关注一下。 ![Snipaste_2024-07-26_15-11-05](https://github.com/user-attachments/assets/4600488b-d919-45a3-82c5-735602cecf9a) ### Related resources _No response_ ### Additional context _No response_

awaiting response