chatglm.cpp issues

是否可以修改接口处理messages的逻辑？

2

我想在api请求时调用model.generate方法而不是model.chat方法，但是我修改openai_api.py文件并没有起到任何作用

chenjx56

能否降低量化的内存使用？

1

使用Baichuan2-13B模型，convert需要几十G内存，在16G内存的Mac上无法完成运行，进程会OOM被系统kill掉。而llama.cpp的convert只占很少内存就可以完成。能否使用类似llama.cpp的方法做量化？

Quotation

关于cpp部署

2

你好，想请教一下怎么对原生的python项目做cpp的部署？就像你这样用cpp部署chatglm，我也想对自己的项目进行cpp部署，我只知道一开始需要转换成script model，后面可以用libtorch在c++里面加载，想问一下你是用这种方式的吗？如果不是的话，有什么更好的办法？

SandroChen

环境：macos m2 python3.11.4 按照指引中： CMAKE_ARGS="-DGGML_METAL=ON" pip install -U chatglm-cpp 安装成功提示： Looking in indexes: https://mirrors.aliyun.com/pypi/simple/ Collecting chatglm-cpp Using cached chatglm_cpp-0.2.10-cp311-cp311-macosx_14_0_arm64.whl Installing collected packages: chatglm-cpp Successfully installed chatglm-cpp-0.2.10 在使用python样例测试的过程中： > import chatglm_cpp...

timoyang

如何提升CPU利用率

1

lanchain_api 运行的时候只有8个线程，CPU只使用了一半，如何提高CPU利用率，比如增加线程数？

zhengxingmao

执行./build/bin/main -m chatglm-ggml.bin 卡住

模型：chatGLM3-6b-22k 模型量化： python3 chatglm_cpp/convert.py -i ZhipuAI/chatglm3-6b-32k -t q4_0 -o chatglm-ggml.bin 环境：WSL2 CUDA11.8 RTX4070 编译：CUBLAS=ON 求助：执行./build /bin/main -m chatglm-ggml.bin -p 过程中有概率出现卡住的情况，文字输出不完整，但是GPU还在跑，程序无法退出，nvidia-smi被阻塞，此时通过kill 能杀掉进程，但是无法释放占用的GPU内存，

JPChen2000

when act with grpc , multiple definition error accur in absl & protobuf

/usr/bin/ld: /usr/local/lib/libsentencepiece.a(wire_format_lite.cc.o):(.rodata+0x104): multiple definition of `google::protobuf::internal::WireFormatLite::kMessageSetItemStartTag'; /usr/local/lib/libprotobuf.a(wire_format_lite.cc.o):(.rodata+0x164): first defined here

shuaidaming