Ares

Results 1 comments of Ares

> 同问,我看代码应该是用了ntk,因为base参数是500w,一般4k训练时用的都是1w吧? 我感到疑惑的是没拓展context的模型的base参数也是500w,并且声称是外推4k->32k,这合理吗?如果长度只拓展8倍,为什么要设置base为500w(而不是大约8w)呢? 请问一下哪里有哦 我怎么看模型sft的代码完全没看到哪里有涉及修改模型位置编码的地方(?