hbj52 comments

Results 2 comments of


                                            hbj52

关于atom-7b-chat长文本微调应如何进行？

> > 感谢项目组提供的模型，非常优秀，也因此我希望基于你们模型再微调以供后续使用。 > > 在使用的时候遇到两个问题。 1> 模型调用，在 [https://huggingface.co/FlagAlpha/Atom-7B-Chat](url) 上开篇提到 Atom-7B-32k-Chat ，不知该模型本身是否已经支持32K？是否使用的时候直接加载即可，不需要额外修改文件或参数，能使用32k长度 2> 模型微调，在该项目内提到 “Atom大模型默认支持4K上下文，利用位置插值PI和Neural Tangent Kernel （NTK）方法，经过微调可以将上下文长度扩增到32K”，不知是否有微调的DEMO？我想在长文本QA上尝试微调，但不知基于本项目应该如何入手。 > > 先行感谢。 > > 我最近也在做相关的工作，可以交流一下，目前也还没调通目前我在尝试用longlora [https://github.com/dvlab-research/LongLoRA](url) ，原生支持llama2，尝试了一下他们的sft脚本，能启动，看起来loss也是在下降。不过我的机器很慢，训完估计很久，你的机器如果不错，可以尝试。据他们作者说如果用几个80g的a100，几个小时能训完样例。我准备等当前llama-chinese项目组的回复看看，不知道他们怎么实现的

关于atom-7b-chat长文本微调应如何进行？

> > > > 感谢项目组提供的模型，非常优秀，也因此我希望基于你们模型再微调以供后续使用。 > > > > 在使用的时候遇到两个问题。 1> 模型调用，在 [https://huggingface.co/FlagAlpha/Atom-7B-Chat](url) 上开篇提到 Atom-7B-32k-Chat ，不知该模型本身是否已经支持32K？是否使用的时候直接加载即可，不需要额外修改文件或参数，能使用32k长度 2> 模型微调，在该项目内提到 “Atom大模型默认支持4K上下文，利用位置插值PI和Neural Tangent Kernel （NTK）方法，经过微调可以将上下文长度扩增到32K”，不知是否有微调的DEMO？我想在长文本QA上尝试微调，但不知基于本项目应该如何入手。 > > > > 先行感谢。 > > >...