yang
Results
2
comments of
yang
> 同问 这里关于cutoff_len的两种用法我认为是都存在的,通过楼主的现象发现确实属于第二种理解。但是在我的实验中我发现cutoff_len属于第一种解释,因为我的总步数很明显就是(数据条数)*(epoch)/(梯度累计步数)。而且我调整了cutof_len后我的步数也并没有发生变化。同时也非常想知道为什么一个参数会有两种不同的情况! 
> 找到原因了,需要配合packing=false才是第一种解释,但pt默认是packing=true就会是第二种解释,希望文档能补充说明 确实是这样,明白了,赞!