fastllm
fastllm copied to clipboard
纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
支持chatglm-6b lora训练后的模型吗
您好、是否也考虑支持一下bloom、结构上应该和llama差不多、但是bloom有比较多不同size的模型,更适合移动端的场景,可能能让这个项目更丰富
在linux上编译了,运行很快。但是在windows上编译失败。 我希望能在windows上运行,再结合whisper和VITS就能实现实时对话的AI了!
好像没有处理 stop 
cuda运行出错
FastllmCudaBatchMatMul函数中调用的cublasSgemmStridedBatched,返回的status错误码为15,导致无法进行推理。请问您那边可以正常运行cuda版本吗
TP多卡部署
后续支持tp切分多卡部署吗?看FasterTransformer Bloom-7b的方案做tp切分,速度会有明显提升
我使用chatglm_export进行导出,发现导出的和原有的模型是一样的,有办法把ptuning微调的参数导出吗
在ChatGLM的Official实现中,token采用了import sentencepiece as spm,这样的一个库,这个库在 self.sp.EncodeAsPieces(text),这一句会把英文单词比如“hello”处理成"▁hello",注意前面的两个杠不是下划线。这应该是最标准的方式,而本项目好像没有做类似的处理。
$ cd /opt/jtmodel/chatgpt-mi10/fastllm/build $ cmake .. 报错: -- USE_CUDA: OFF -- CMAKE_CXX_FLAGS -pthread --std=c++17 -O2 -march=native CMake Error at CMakeLists.txt:35 (target_link_libraries): Object library target "fastllm" may not link to anything....