chatglm.cpp icon indicating copy to clipboard operation
chatglm.cpp copied to clipboard

C++ implementation of ChatGLM-6B & ChatGLM2-6B & ChatGLM3 & GLM4(V)

Results 148 chatglm.cpp issues
Sort by recently updated
recently updated
newest added

我想在api请求时调用model.generate方法而不是model.chat方法,但是我修改openai_api.py文件并没有起到任何作用

使用Baichuan2-13B模型,convert需要几十G内存,在16G内存的Mac上无法完成运行,进程会OOM被系统kill掉。 而llama.cpp的convert只占很少内存就可以完成。能否使用类似llama.cpp的方法做量化?

你好,想请教一下怎么对原生的python项目做cpp的部署?就像你这样用cpp部署chatglm,我也想对自己的项目进行cpp部署,我只知道一开始需要转换成script model,后面可以用libtorch在c++里面加载,想问一下你是用这种方式的吗?如果不是的话,有什么更好的办法?

环境:macos m2 python3.11.4 按照指引中: CMAKE_ARGS="-DGGML_METAL=ON" pip install -U chatglm-cpp 安装成功提示: Looking in indexes: https://mirrors.aliyun.com/pypi/simple/ Collecting chatglm-cpp Using cached chatglm_cpp-0.2.10-cp311-cp311-macosx_14_0_arm64.whl Installing collected packages: chatglm-cpp Successfully installed chatglm-cpp-0.2.10 在使用python样例测试的过程中: > import chatglm_cpp...

lanchain_api 运行的时候只有8个线程,CPU只使用了一半,如何提高CPU利用率,比如增加线程数?

模型:chatGLM3-6b-22k 模型量化: python3 chatglm_cpp/convert.py -i ZhipuAI/chatglm3-6b-32k -t q4_0 -o chatglm-ggml.bin 环境:WSL2 CUDA11.8 RTX4070 编译:CUBLAS=ON 求助:执行./build /bin/main -m chatglm-ggml.bin -p 过程中有概率出现卡住的情况,文字输出不完整,但是GPU还在跑,程序无法退出,nvidia-smi被阻塞,此时通过kill 能杀掉进程,但是无法释放占用的GPU内存,

/usr/bin/ld: /usr/local/lib/libsentencepiece.a(wire_format_lite.cc.o):(.rodata+0x104): multiple definition of `google::protobuf::internal::WireFormatLite::kMessageSetItemStartTag'; /usr/local/lib/libprotobuf.a(wire_format_lite.cc.o):(.rodata+0x164): first defined here

在llamacpp上使用GPU运行,GPU利用率比chatglmcpp低,想用chatglmcpp运行llama模型

不支持 n_gpu_layers 参数控制装载的层数吗?多实例环境对推理速度要求不太高的场合,哪怕每个实例少装载 4~5 层也能节省很多 GPU

编译后和原版的chatglm2-6b,输出不一致。是因为q4_0参数导致的吗?请问具体怎么理解这个参数 python3 chatglm_cpp/convert.py -i THUDM/chatglm2-6b -t q4_0 -o chatglm2-ggml.bin