Jonsen Yang
Results
3
comments of
Jonsen Yang
很棒!很期待重构后的版本。 我现在是在Vue3里加载editable使用,用veaury套一层,有些复杂。刚用上,不知道还会有什么美好的事情发生。
个人理解,仅供参考。 大模型量化,是将大模型精简压缩了,相当于图片压缩。量化(压缩)后,内存(显存)占用少了,响应速度快了,但是回答精度就有所牺牲了。 chatglm_cpp/convert.py 的 q参数的数字越小,越精简。
得有足够显存才能加载模型吧。 只要显存足够,应该是可以并行的。当然也存在GPU算力资源分配问题。