刘源

Results 5 issues of 刘源

GPU:4*RTX 4090 24G 代码是: ``` from FlagEmbedding import BGEM3FlagModel model = BGEM3FlagModel('BAAI/bge-m3', use_fp16=True) sentences_1 = ["What is BGE M3?", "Defination of BM25"] sentences_2 = ["BGE M3 is an embedding model...

`[01/17 09:57:56] ppgan.engine.trainer INFO: Iter: 1930/3200000 lr: 1.250e-04 loss: -24.167 batch_cost: 0.71843 sec reader_cost: 0.00057 sec ips: 11.13532 images/s eta: 26 days, 14:13:23 [01/17 09:58:03] ppgan.engine.trainer INFO: Iter: 1940/3200000 lr:...

硬件:H800 PCIE * 8 我使用vllm推理最多只能达到1500tokens/s,batch_size为1024,请问怎样才能达到论文里说的50000多tokens?

机器环境:4 * RTX 4090 运行命令:CUDA_VISIBLE_DEVICES=0,1 python examples/example_chat.py --num_gpus 2 出现如下错误: ` Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████| 2/2 [00:02

### Motivation 我用lmdeploy serve api_server起了一个推理服务InternVL2-26B,发现了以下问题: 1、设置stream=true时,发现每一条都会有"usage":null的内容,生成最后一个token时,"usage"并没有具体的输入和输出tokens信息,这样的话就没有办法统计流式接口的tokens,我理解这不是标准的openai格式,请各位大佬关注修一下。 2、压测接口时,逐渐增加并发数,发现显存占用一直在变多,不请求也没有清除多余显存占用,建议增加每次请求完成后清理显存占用的操作。 3、服务部署成功后,内存似乎没有释放,free -m 发现有大量的内存在buff/cache里,请各位大佬关注一下。 ![Snipaste_2024-07-26_15-11-05](https://github.com/user-attachments/assets/4600488b-d919-45a3-82c5-735602cecf9a) ### Related resources _No response_ ### Additional context _No response_

awaiting response