hanyullai comments

Results 10 comments of


                                            hanyullai

retrieve模型不变的情况下，修改代码以使用其他模型（除了WebGLM和WebGLM-2B）是否可行呢？

你好！如果想要使用其他AutoModelForSeq2SeqLM支持的模型，可以直接透过传入不同的checkpoint来完成，不过可能需要重新组织prompt。如果要使用其他AutoModelForSeq2SeqLM不支持的模型，得在model/modeling_webglm.py中进行修改。

纯cpu运行有问题: "LayerNormKernelImpl" not implemented for 'Half'

@ZisIsNotZis 你好！CPU运行的报错似乎与pytorch有关，CPU推理目前仍只支持fp32。可以参考"LayerNormKernelImpl" not implemented for 'Half' - CPU (https://github.com/pytorch/pytorch/issues/52291)

运行报错 TypeError: expected str, bytes or os.PathLike object, not NoneType

您好，看起来问题应该是checkpoint的路径设定有问题，能告诉我们WEBGLM_CKPT的环境变量值吗？

运行报错 TypeError: expected str, bytes or os.PathLike object, not NoneType

有可能是本地环境变量无意设置了WEBGLM_CKPT导致的错误。可以尝试手动设置下WEBGLM_CKPT环境变量或传入参数webglm_ckpt_path。详细可见：https://github.com/THUDM/WebGLM/blob/74d3bcac3b1b7d4ec35e21a33677f5ed92a08fed/model/modeling_webglm.py#L56

运行报错 TypeError: expected str, bytes or os.PathLike object, not NoneType

有的，我们的官方仓库是https://huggingface.co/THUDM/WebGLM 和 https://huggingface.co/THUDM/WebGLM-2B 。也可以从这里进行下载。

关于微调检索模型的数据

你好！我们微调检索器数据的Query来自ELI5，Reference来自搜索引擎检索，并根据GPT-3是否采用作为标签构造的。详细构造细节可见我们的论文 (https://arxiv.org/abs/2306.07906)

关于人类偏好模型的训练

是的，我们目前还没有使用强化学习用于我们的模型训练中，人类偏好模型目前仅用于模型回答的筛选。

关于max_new_tokens的运行错误，请问如何修改

你好！这个错误是因为模型的最大输入长度是1024，但是推理输入的长度是1303，超过了最大限制。由于模型及浏览器检索的输入限制，建议将prompt长度缩短到支持的范围内。

配置项添加

你好！感谢建议，我们会考虑在后续的版本中加上内容审查的功能！

我想使用hugging Face的快速api试一下效果，有报错，能解决一下吗？

你好！由于涉及网络检索，我们在Huggingface上只提供模型权重的下载，没有提供官方的API使用。