fastllm
fastllm copied to clipboard
纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
是直接对照 huggingface 版的python代码来实现的吗 https://huggingface.co/THUDM/chatglm-6b-int8/blob/main/modeling_chatglm.py
有没有docker镜像?
-- The CXX compiler identification is GNU 7.5.0 -- Detecting CXX compiler ABI info -- Detecting CXX compiler ABI info - done -- Check for working CXX compiler: /usr/bin/c++ -...
# 环境: ## 硬件: 机器A: NVIDIA-SMI 525.105.17 Driver Version: 525.105.17 CUDA Version: 12.0 2080ti 机器B: NVIDIA-SMI 515.43.04 Driver Version: 515.43.04 CUDA Version: 11.7 A10 ## docker image: nvcr.io/nvidia/pytorch:23.04-py3 ## 软件版本:...
TypeError: can't convert cuda:0 device type tensor to numpy. Use Tensor.cpu() to copy the tensor to host memory first. ``` import sys from transformers import AutoTokenizer, AutoModel from fastllm_pytools import...
今天在V100上打算测试一下,发现加载chatglm2失败,model_type不对,就重新下载了glm2,但是gpu上会报错:IndexError: piece id is out of range不知道咋回事儿?
修复ChatGLM模型导出的bug,当不传参数时,由于sys.argv小于2,导致sys.argv[1]会抛出索引序号异常
请问baichuan-13b-chat这个模型支持了吗
求好心人发一个编译后的二进制exe文件,Windows系统
使用chatglm-6b-int8.flm在24G的GPU上运行,理论上内存是足够用的。 但是运行一段时间后会异常,控制台报错: terminate called after throwing an instance of 'char const*' python会进入状态,挂住。 请问: 1. 是否有其他的详细日志供排查分析? 2. 进入这个状态后,是否有办法自动重启?