CSD
CSD copied to clipboard
请问论文中的局部子分支的参数量是如何计算得到的?
请问例如0.25x的网络分支的参数量如何计算得到的? 且想问一下该自蒸馏方法训练保存的还是整个的模型,只是在进行模型推理的时候用的局部分支的参数。不能直接保存局部子分支的模型?