ziyangwang1992
Results
1
comments of
ziyangwang1992
需要增加attn、conv cache,还需要对一些细节进行微调。总体思路可以模拟流式、非流式进行对拍,屏蔽掉一切随机数,看看哪里不一致就修改哪里。这个还是比较费时间的。另外要注意不同时间步的cache不一样。