NeverSayXz

Results 4 comments of NeverSayXz

Our team meet the similar problem: java.lang.OutOfMemoryError: Physical memory usage is too high: physicalBytes(42164M) > maxphysicalBytes(32768M) . This OOM error occurs after running our service for several hours(load savedModels for...

> > 感觉这样推理才能和训练时causal mask保持一致 > > 理论上如果跟训练保持一致的话 是不可能做到低延时的 因为你必须每个chunk能看到过去的所有chunk 在最后一个chunk你需要提供过去的所有chunk 所以其实一般在流式训练中的做法是设置 num_left_chunks 就是能看到过去多少的chunk 如果完全不设置的话 那确实得这么推 但肯定不可能低延时 目前推理num_left_chunks似乎是-1,看左边所有的chunks

> > > > 感觉这样推理才能和训练时causal mask保持一致 > > > > > > > > > 理论上如果跟训练保持一致的话 是不可能做到低延时的 因为你必须每个chunk能看到过去的所有chunk 在最后一个chunk你需要提供过去的所有chunk 所以其实一般在流式训练中的做法是设置 num_left_chunks 就是能看到过去多少的chunk 如果完全不设置的话 那确实得这么推 但肯定不可能低延时 > > > > >...