zero-lora icon indicating copy to clipboard operation
zero-lora copied to clipboard

lora 例程,适用于高瘦matmul- 高达 15 倍的加速比

Open ziwang-com opened this issue 2 years ago • 0 comments
trafficstars

https://github.com/ggerganov/llama.cpp/pull/996 将暂时停止这里的调查。应用 LoRA 所需的时间对于这些更改是可以忍受的.

我们离最佳状态还很远;例如,我在高 K (K=10000) 的矩阵上看到 250KFLOPs/us。

LoRA 应用程序非正式基准测试:

K=16 AVX2 - 5141.57 ms AVX - 9831.28 ms default - 22611.96 ms

不,又高又瘦的样子:

__ | | ___________ | | X |__________| |__| 矩阵到向量是


| | | | | | X | | | __________| ||

ziwang-com avatar May 21 '23 08:05 ziwang-com