chuxiaoyi2023
chuxiaoyi2023
需要编译哈,不能用pip install chat mkdir build cd build && cmake .. && make -j && cd ..
you can run chatglm3 with new version
可以使用penalty_sample来进行采样 --generation_mode penalty_sample 或者是将惩罚系数调高一些,这个可以用 python pipeline.py --help 来查看参数说明 如果两种方式都解决不了,可能是因为量化的缘故导致模型性能下降,那就只能用int8或者fp16/bf16了 另外我看你的速度很快,估计是比较小的模型,一般来说这种重复是小模型比较常见的,可以使用7B这样的规格尝试一下
这个就有点非常难搞了,这个错误挺麻烦的 :( 想问一下你是自己转的模型么,还是用我们转好的,推荐以下一些方式 1. 编译模型出错:使用config.json里面的transformers版本,你的torch和transformers有点高了(概率不大) 2. 代码有问题:使用gdb定位到chat.cpp里面forward_first的net_launch上下几行,一行一行next,同时开一个bm-smi,一般是net_launch出错,定位到是具体走哪行时,bm-smi里面变成fault(有可能) 3. 转化模型时出错:可能是工具链tpu-mlir有问题,这个我们内部一般是截断模型,一行一行看,model_transform.py 里面有一个output_names参数截断 4. 版本问题 也可以参考这里https://github.com/sophgo/LLM-TPU/blob/main/docs/FAQ.md Q11
https://github.com/sophgo/LLM-TPU/issues/31 您好,请按照标准提问格式来提问~不然这样很难确定原因 另外我看是chat_vision,是多模态的模型么
可能是因为你改了import chat的原因,改成了import chat_vision 猜测你可能是修改了库名称,但是没修改全 如果你想修改库名字,你还需要同时修改chat.cpp中pybind的代码 以及CMakeLists.txt的文件,不然很容易报错
版本太老噜,用这个https://github.com/sophgo/tpu-mlir [d0cbae7](https://github.com/sophgo/tpu-mlir/commit/d0cbae79f499b3b2acde243dd94f5d2af86bb296) 不过这个要自己编译source envsetup.sh && ./build.sh DEBUG
很奇怪的问题,有点像是链接错误,是lib_soc没有下载好么 参考这里的下载libsophon的方式 https://github.com/sophgo/LLM-TPU/tree/main/models/Qwen/demo_parallel 之后export LD_LIBRARY_PATH=xxx 试试呢
这个模型一看就很困难ovo,如果你对huggingface和cpp和onnx熟悉的话可以自己试着迁移,我们这边排的话可能要很晚才会适配
可以试试在bmrt_test的时候,观察bm-smi的变动情况,如果内存逐渐增加,并且到11711MB左右时快爆了,那说明可能需要调大内存 参考这个 [https://github.com/sophgo/LLM-TPU/blob/main/docs/FAQ.md](FQA.md) Q10这个问题 ./memory_edit.sh -c -npu 7168 -vpu 3072 -vpp 4096