苏剑林(Jianlin Su)

Results 390 comments of 苏剑林(Jianlin Su)

我是在8*A800上测试的。我对torch不了解,坦白说我也很困惑为啥它会消耗这么多显存...

看起来应该可以。但你说“可以节省很多的显存”我不大理解,难道这里背后有什么我不知道的细节吗?

The current open-source code is based on the llama implementation (both llama1 and llama2 are supported, as long as transformers==3.41.0)

@xs1997zju I haven't experimented with alibi, but my intuition tells me alibi can directly use Position Interpolation.

我稍微看了一下,meta版llama2代码改起来可能比transformers版还简单,可以自行尝试一下。 主要是我平时根本不用torch,改transformers版已经有点勉强了,实在不好改~

7b模型确实一般,我后面都是试了13b才有比较理想的效果

看 https://kexue.fm/archives/9706 的 (14) 以及 https://kexue.fm/archives/8823

打扰一下,请问这个还有后续介绍吗?我有没有错过啥?