fastllm icon indicating copy to clipboard operation
fastllm copied to clipboard

纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行

Results 170 fastllm issues
Sort by recently updated
recently updated
newest added

之前看了一下fastllm的源码,好像还没有支持ChatGLM3的多轮,后续是否有支持ChatGLM3多轮的计划

请问大佬,什么时候可以支持baichuan2+peft的加速呢?或者需要改哪些地方实现支持其他模型呢?

请教下gpu编译和非gpu编译有什么区别????

在转化SUS-Chat-34B模型(该模型完全兼容llama架构)为flm格式时,报了这个错: ```python root@5ce5bafeea81:/app# python glm_trans_flm.py Loading checkpoint shards: 100%|██████████████████████████████████████████████████| 7/7 [01:09

测试脚本: ```python from typing import List import json import time import os import sys cur_dir = os.path.dirname(os.path.abspath(__file__)) fastllm_dir = os.path.join(cur_dir, "fastllm") sys.path.append(fastllm_dir) import pyfastllm glm2_model_path = os.path.join(fastllm_dir, "chatglm2-6b-fp16.flm") glm2_model =...

请问通过pyfastllm加载模型的方式(import pyfastllm, pyfastllm.create_llm(model_path)),有接口或者方法能释放GPU空余显存吗? torch.cuda.empty_cache()经测试是无效的

模型:baichuan2-13B-chat 问题1: 复现代码块: In [4]: import pyfastllm In [5]: model = pyfastllm.create_model("baichuan2-int8.flm") In [6]: prompt = model.make_input("", 0, "你好") In [7]: prompt Out[7]: ' 你好' 问题:可以看到使用make_input后在“你好”前多了个空格 问题2: 复现代码块: In [7]:...

使用`nvidia-smi`: ![image](https://github.com/ztxz16/fastllm/assets/31238754/82354d27-5993-4a67-a954-e8f4974fc98f) 使用`nvcc --version` ![image](https://github.com/ztxz16/fastllm/assets/31238754/155aa8be-e2bf-4f87-9881-686a6d4254b0) 是可以看到gpu的,问题出在哪里呢,有时间帮忙看看吧

**前言** 感谢开发者,研发出了如此易理解、好部署、配件完善的加速库🎉🎉🎉,真的很棒,对我很有帮助😊😊😊!!! **问题描述** 有大量业务场景,仅需要模型生成单个token,如:新闻分类、逻辑推断、情感分析、关系提取、语种检测...。 在此类场景下,fastllm库中的llama模型实现(其它模型可能也存在)存在一个严重问题:随着batch size增大,耗时线性增长😰。 这个问题其他用户也复现了,见issue:[ISSUE 337](https://github.com/ztxz16/fastllm/issues/337) **复现细节** - 硬件:显卡4090,内存cpu管够。 - 模型:LlamaModel - 接口:batch_response ``` import pyfastllm model_path = "tokenizer path" tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code = True) flm_model =...