Jonsen Yang comments

Results 3 comments of


                                            Jonsen Yang

很棒！很期待重构后的版本。我现在是在Vue3里加载editable使用，用veaury套一层，有些复杂。刚用上，不知道还会有什么美好的事情发生。

个人理解，仅供参考。大模型量化，是将大模型精简压缩了，相当于图片压缩。量化（压缩）后，内存（显存）占用少了，响应速度快了，但是回答精度就有所牺牲了。 chatglm_cpp/convert.py 的 q参数的数字越小，越精简。

得有足够显存才能加载模型吧。只要显存足够，应该是可以并行的。当然也存在GPU算力资源分配问题。