Aaron Chung

Results 7 comments of Aaron Chung

好的,谢谢 @ymcui 和 @bash99 !😊我也通过合并等等步骤,用llama.cpp和hf都成功部署了~ 但是目前有个问题,alpaca 7b的hf推理,几乎没有上下文记忆,这个也是需要调参吗 **有关量化,我先试一下gptq在inference上的表现。另外发现num_beams只要不是1就很容易出现这个问题,不过这个倒是无关紧要... Traceback (most recent call last): File "/home/#####/Chinese-LLaMA-Alpaca/scripts/inference_hf.py", line 104, in generation_output = model.generate( ^^^^^^^^^^^^^^^ File "/home/#####/anaconda3/envs/llm/lib/python3.11/site-packages/torch/utils/_contextlib.py", line 115, in decorate_context return func(*args,...

> 修改modeling_chatglm.py chat方法,我没有用流方式 ###### if not history: prompt = query else: prompt = "" for i, (old_query, response) in enumerate(history): prompt += "[Round {}]\n问:{}\n答:{}\n".format(i, old_query, response) prompt += "[Round {}]\n问:{}\n答:".format(len(history),...

> 修改modeling_chatglm.py chat方法,我没有用流方式 ###### if not history: prompt = query else: prompt = "" for i, (old_query, response) in enumerate(history): prompt += "[Round {}]\n问:{}\n答:{}\n".format(i, old_query, response) prompt += "[Round {}]\n问:{}\n答:".format(len(history),...

> 发现自己微调不能生效的原因,是modeling_chatglm.py中原生的build_inputs会把你的输入组织成“[Round n] 问:***************** " 作为prompt传出tokenizer生成inputs。而微调训练时提供的提示词是特定句式比如请查询。。。。, build_inputs方法会把外面包上一层,导致chatglm不能按照希望的结果返回,所以去掉外面一层,直接把query传入tokenizer就能得到和训练时一致的返回。 意思就是说,用这行就行了嘛?`inputs = self.build_inputs(tokenizer, query, history=history)`

@oscarbg didn't work. `cublasLtMatmul` and `cublasLtMatrixTransform` still can't work for __nv_fp8_e4m3 and __nv_fp8_e4m3 on 4090 with newest cuda 12.1, date-2023.3.7. Can anyone work it out or it is just cuda...

你可能没用accelerate...据说是需要的,你看看好使吗