chatglm.cpp
chatglm.cpp copied to clipboard
C++ implementation of ChatGLM-6B & ChatGLM2-6B & ChatGLM3 & GLM4(V)
ChatGlm3-6b-128K是智谱唯一的开源长上下文模型,我需要量化版在cpu环境中运行,请问是否支持这个模型量化
如何编译一个某类gpu兼容的 程序?
命令行以及python binding方式均没有问题。 准备尝试api server的方式,出现了下列问题。 运行过程描述如下, 首先,运行 MODEL=./chatglm2-ggml.bin uvicorn chatglm_cpp.openai_api:app --host 127.0.0.1 --port 8000,遇到以下问题 ModuleNotFoundError: No module named 'chatglm_cpp._C' 根据其他issue,cd到其他目录,继续运行。 出现没有安装pydantic_settings包的错误。 又继续安装该包。最终,出现如下错误。 
我是windows,一样的报错 G:\fuckkk\chatglm.cpp\build\lib.win-amd64-cpython-310\chatglm_cpp  D:\Anaconda3-2021.11\envs\chatglm\Lib\site-packages\chatglm_cpp  也不再冲突目录中加载;  已经参考 https://github.com/li-plus/chatglm.cpp/issues/177 https://github.com/li-plus/chatglm.cpp/issues/91 无法解决
class ToolCallMessage: code: CodeMessage function: FunctionMessage type: str class CodeMessage: input: str class FunctionMessage: arguments: str name: str
我有一台虚机测试运行,32个cpus,我观察到在cpu模式运行下,通过docker stats查看cpu利用率最多只有1600%(如果满负荷,理论上应该达到3200%)。 调整虚机到64个cpus,观察cpu利用率依然只有1600%(如果满负荷,理论上应该达到6400%)。 说明文档中有写到,cpu模式测试性能时是跑的16个线程,是否跟这个有关系?能否有参数进行调整让cpu利用率提高一些?
请问这个文件是什么格式的啊?我放到ollama里报错magic char啥啥啥。我又放到llama.cpp的ggml转gguf里,报错不是ggml文件。
CMake Error at /usr/local/share/cmake-3.26/Modules/CMakeDetermineCUDACompiler.cmake:277 (message): CMAKE_CUDA_ARCHITECTURES must be non-empty if set. Call Stack (most recent call first): third_party/ggml/src/CMakeLists.txt:203 (enable_language)