fastllm icon indicating copy to clipboard operation
fastllm copied to clipboard

纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行

Results 170 fastllm issues
Sort by recently updated
recently updated
newest added

是直接对照 huggingface 版的python代码来实现的吗 https://huggingface.co/THUDM/chatglm-6b-int8/blob/main/modeling_chatglm.py

有没有docker镜像?

-- The CXX compiler identification is GNU 7.5.0 -- Detecting CXX compiler ABI info -- Detecting CXX compiler ABI info - done -- Check for working CXX compiler: /usr/bin/c++ -...

# 环境: ## 硬件: 机器A: NVIDIA-SMI 525.105.17 Driver Version: 525.105.17 CUDA Version: 12.0 2080ti 机器B: NVIDIA-SMI 515.43.04 Driver Version: 515.43.04 CUDA Version: 11.7 A10 ## docker image: nvcr.io/nvidia/pytorch:23.04-py3 ## 软件版本:...

TypeError: can't convert cuda:0 device type tensor to numpy. Use Tensor.cpu() to copy the tensor to host memory first. ``` import sys from transformers import AutoTokenizer, AutoModel from fastllm_pytools import...

今天在V100上打算测试一下,发现加载chatglm2失败,model_type不对,就重新下载了glm2,但是gpu上会报错:IndexError: piece id is out of range不知道咋回事儿?

修复ChatGLM模型导出的bug,当不传参数时,由于sys.argv小于2,导致sys.argv[1]会抛出索引序号异常

请问baichuan-13b-chat这个模型支持了吗

求好心人发一个编译后的二进制exe文件,Windows系统

使用chatglm-6b-int8.flm在24G的GPU上运行,理论上内存是足够用的。 但是运行一段时间后会异常,控制台报错: terminate called after throwing an instance of 'char const*' python会进入状态,挂住。 请问: 1. 是否有其他的详细日志供排查分析? 2. 进入这个状态后,是否有办法自动重启?