fastllm issues

后续能否支持ChatGLM3的多轮

2

之前看了一下fastllm的源码，好像还没有支持ChatGLM3的多轮，后续是否有支持ChatGLM3多轮的计划

chenyangjun45

目前PEFT仅支持chatglm，什么时候可以支持其他模型，比如baichuan2呢？或者需要改哪些地方，很乐意contribute。

1

请问大佬，什么时候可以支持baichuan2+peft的加速呢？或者需要改哪些地方实现支持其他模型呢？

jiahuanluo

如果用gpu编译这个项目后,用fastllm加载模型是只能用gpu推理嘛

2

请教下gpu编译和非gpu编译有什么区别？？？？

dingli06

在转化SUS-Chat-34B模型(该模型完全兼容llama架构)为flm格式时，报了这个错： ```python root@5ce5bafeea81:/app# python glm_trans_flm.py Loading checkpoint shards: 100%|██████████████████████████████████████████████████| 7/7 [01:09

ColorfulDick

大佬想问下利用率只跑到60% 是什么情况?

2

Chenhuaqi6

pyfastllm 内存泄露

7

测试脚本： ```python from typing import List import json import time import os import sys cur_dir = os.path.dirname(os.path.abspath(__file__)) fastllm_dir = os.path.join(cur_dir, "fastllm") sys.path.append(fastllm_dir) import pyfastllm glm2_model_path = os.path.join(fastllm_dir, "chatglm2-6b-fp16.flm") glm2_model =...

eric642

pyfastllm有释放GPU显存的接口吗？

3

请问通过pyfastllm加载模型的方式（import pyfastllm, pyfastllm.create_llm(model_path)），有接口或者方法能释放GPU空余显存吗？ torch.cuda.empty_cache()经测试是无效的

hediyuan

make_input和model.weight.tokenizer.encode会产生多余空格问题

3

模型：baichuan2-13B-chat 问题1：复现代码块： In [4]: import pyfastllm In [5]: model = pyfastllm.create_model("baichuan2-int8.flm") In [6]: prompt = model.make_input("", 0, "你好") In [7]: prompt Out[7]: ' 你好' 问题：可以看到使用make_input后在“你好”前多了个空格问题2：复现代码块： In [7]:...

yiguanxian

cmake时候报错，CUDA_ARCHITECTURES is set to "native", but no GPU was detected.

2

使用`nvidia-smi`: ![image](https://github.com/ztxz16/fastllm/assets/31238754/82354d27-5993-4a67-a954-e8f4974fc98f) 使用`nvcc --version` ![image](https://github.com/ztxz16/fastllm/assets/31238754/155aa8be-e2bf-4f87-9881-686a6d4254b0) 是可以看到gpu的，问题出在哪里呢，有时间帮忙看看吧

zyh3826

求助求助，llama模型生成第一个token时，有3个代码块耗时严重【已解决2个，仅剩1个🙏🙏🙏】

10

**前言** 感谢开发者，研发出了如此易理解、好部署、配件完善的加速库🎉🎉🎉，真的很棒，对我很有帮助😊😊😊！！！ **问题描述** 有大量业务场景，仅需要模型生成单个token，如：新闻分类、逻辑推断、情感分析、关系提取、语种检测...。在此类场景下，fastllm库中的llama模型实现（其它模型可能也存在）存在一个严重问题：随着batch size增大，耗时线性增长😰。这个问题其他用户也复现了，见issue：[ISSUE 337](https://github.com/ztxz16/fastllm/issues/337) **复现细节** - 硬件：显卡4090，内存cpu管够。 - 模型：LlamaModel - 接口：batch_response ``` import pyfastllm model_path = "tokenizer path" tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code = True) flm_model =...

AnShengqiang

fastllm
fastllm copied to clipboard

Metadata

后续能否支持ChatGLM3的多轮

目前PEFT仅支持chatglm，什么时候可以支持其他模型，比如baichuan2呢？或者需要改哪些地方，很乐意contribute。

如果用gpu编译这个项目后,用fastllm加载模型是只能用gpu推理嘛

转化模型格式(.bin->.flm)时

大佬想问下利用率只跑到60% 是什么情况?

pyfastllm 内存泄露

pyfastllm有释放GPU显存的接口吗？

make_input和model.weight.tokenizer.encode会产生多余空格问题

cmake时候报错，CUDA_ARCHITECTURES is set to "native", but no GPU was detected.

求助求助，llama模型生成第一个token时，有3个代码块耗时严重【已解决2个，仅剩1个🙏🙏🙏】

← Metadata

Owner

Metadata

fastllm fastllm copied to clipboard

Metadata

← Metadata

Owner

Metadata

fastllm
fastllm copied to clipboard