Vincent chen
Vincent chen
底层请求的post加了"stream":true参数,本身就是会每个token去请求一次的,这个不是bug,是流式的调用方式
请问你有解决这个问题吗,我也遇到了同样的问题
Yeh, I met the same situation like u I loaded the embeddings and passages of precomputing, but when I run evaluate.py, it always shows cuda out of memory while loading....
> 还是么用呢 这个是不是灾难性遗忘 不是,灾难性遗忘是没办法回答源域知识,输出的内容都是SFT阶段的语料回答,而不是胡乱回答;上面的问题看起来更像是推理阶段对特殊符eos, pos解析出错导致的,就像前面提到的推理代码中数据组织格式不一致导致的,需要自己debug或者使用源项目推理代码