hbj52
hbj52
> > 感谢项目组提供的模型,非常优秀,也因此我希望基于你们模型再微调以供后续使用。 > > 在使用的时候遇到两个问题。 1> 模型调用,在 [https://huggingface.co/FlagAlpha/Atom-7B-Chat](url) 上开篇提到 Atom-7B-32k-Chat ,不知该模型本身是否已经支持32K?是否使用的时候直接加载即可,不需要额外修改文件或参数,能使用32k长度 2> 模型微调,在该项目内提到 “Atom大模型默认支持4K上下文,利用位置插值PI和Neural Tangent Kernel (NTK)方法,经过微调可以将上下文长度扩增到32K”,不知是否有微调的DEMO?我想在长文本QA上尝试微调,但不知基于本项目应该如何入手。 > > 先行感谢。 > > 我最近也在做相关的工作,可以交流一下,目前也还没调通 目前我在尝试用longlora [https://github.com/dvlab-research/LongLoRA](url) ,原生支持llama2,尝试了一下他们的sft脚本,能启动,看起来loss也是在下降。不过我的机器很慢,训完估计很久,你的机器如果不错,可以尝试。据他们作者说如果用几个80g的a100,几个小时能训完样例。 我准备等当前llama-chinese项目组的回复看看,不知道他们怎么实现的
> > > > 感谢项目组提供的模型,非常优秀,也因此我希望基于你们模型再微调以供后续使用。 > > > > 在使用的时候遇到两个问题。 1> 模型调用,在 [https://huggingface.co/FlagAlpha/Atom-7B-Chat](url) 上开篇提到 Atom-7B-32k-Chat ,不知该模型本身是否已经支持32K?是否使用的时候直接加载即可,不需要额外修改文件或参数,能使用32k长度 2> 模型微调,在该项目内提到 “Atom大模型默认支持4K上下文,利用位置插值PI和Neural Tangent Kernel (NTK)方法,经过微调可以将上下文长度扩增到32K”,不知是否有微调的DEMO?我想在长文本QA上尝试微调,但不知基于本项目应该如何入手。 > > > > 先行感谢。 > > >...