embedded-ai.bi-weekly
embedded-ai.bi-weekly copied to clipboard
WeChat: NeuralTalk,Weekly report and awesome list of embedded-ai.
mzlogin/awesome-adb: ADB Usage Complete / ADB 用法大全 https://github.com/mzlogin/awesome-adb
ARM Illegal Instruction错误初窥 - CSDN博客 https://blog.csdn.net/yuanbinquan/article/details/50542339
Ubuntu 下ADB shell 报错 error: device not found - CSDN博客 https://blog.csdn.net/leokelly001/article/details/43485691
gdb for android http://dan.drown.org/android/howto/gdb.html Termux https://termux.com/ Valgrind Home http://valgrind.org/
> 基于 Transformer 的大型语言模型(LLMs)随着模型规模的不断扩大取得了显著的成功,但由于其对计算和内存的巨大需求,部署仍然具有挑战性。量化已成为一种很有前途的解决方案,而针对大型语言模型的最先进量化算法引入了对混合精度矩阵乘法(mpGEMM)的需求,即低精度权重与高精度激活相乘。尽管有其优势,但目前的硬件加速器如 GPU 和 TPU 缺乏对高效 mpGEMM 的原生支持,导致在主要顺序循环中的反量化操作效率低下。 为了解决这一限制,我们引入了 MixPE,这是一种专门的混合精度处理元件,专为在大语言模型推理中进行高效的低位量化而设计。MixPE 利用两项关键创新来最大限度地减少反量化开销并释放低位量化的全部潜力。首先,认识到在每个量化组内比例因子和零点是共享的,我们建议在每组矩阵乘法后进行反量化,显著减少反量化开销。其次,MixPE 不依赖传统的乘法器,而是利用高效的移位和加法操作进行乘法运算,优化了计算和能源效率。我们的实验结果表明,MixPE 比最先进的量化加速器速度快 2.6 倍,能源消耗减少 1.4 倍。 