ztxz16

Results 137 comments of ztxz16

> @ztxz16 我初步测下来好像llama.cpp要快一些,可能是最近优化的原因。我是Ryzen 5950x & RTX A6000。因为llama.cpp没有官方支持chatglm,我做对比的时候2个选取同样的baichuan 7B模型源做的测试 https://huggingface.co/fireballoon/baichuan-llama-7b, 然后转成相应的ggml以及flm各式 llama.cpp我是用q4_k_m量化,CPU 7t/s, GPU 80 t/s, 复现方法为./main -m -p "how to build a house" -n 128 fastllm 我是用int4, CPU 5.1t/s, GPU...

> 编译器呢?后面我在benchmark程序里加一下打印信息,方便确认指令集开启情况吧

> > > > > > > > > 编译器呢?后面我在benchmark程序里加一下打印信息,方便确认指令集开启情况吧 > > CMAKE 3.25, gcc 9.4 我后面打印一下指令集信息吧 如果后面有时间可以试下编译选项里-march=native后面再加上-mavx -mavx2看会不会快一点 话说有单独测过DDR带宽吗?5950X上7t/s有点过于慢了,llama.cpp也不应该这么慢的,感觉有点像是内存带宽限制了

> V100 > > fastllm - - - - - - - - - - - - - - - - -- f16, batch = 1 batch: 1 output 336...

可以尝试一下把CMakeLists.txt的第20行改成 set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -pthread --std=c++17 -O2 -mavx -mavx2 -march=native") 试试 如果还有问题的话应该是有不支持的指令集,我后面区分一下指令集版本

那好像是不支持avx2指令集,我之后程序里改改区分一下AVX和AVX2

先开着吧,我修好了再关 刚才那句话可以改成 set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -pthread --std=c++17 -O2") 这样就不会开汇编优化,应该能跑起来了,就是速度可能慢一点

I'll add it as soon as possible, probably this week

我手头没有centos.. 理论上应该用cmake编译就可以? 会报错吗