zero-lora
zero-lora copied to clipboard
lora 例程,适用于高瘦matmul- 高达 15 倍的加速比
trafficstars
https://github.com/ggerganov/llama.cpp/pull/996 将暂时停止这里的调查。应用 LoRA 所需的时间对于这些更改是可以忍受的.
我们离最佳状态还很远;例如,我在高 K (K=10000) 的矩阵上看到 250KFLOPs/us。
LoRA 应用程序非正式基准测试:
K=16 AVX2 - 5141.57 ms AVX - 9831.28 ms default - 22611.96 ms
不,又高又瘦的样子:
__ | | ___________ | | X |__________| |__| 矩阵到向量是
| | | | | | X | | | __________| ||