Paddle
Paddle copied to clipboard
请问paddle中是否有类似gradient_checkpointing的功能?或者是否还有什么别的省显存的方式?
请提出你的问题 Please ask your question
请问paddle中是否有类似gradient_checkpointing的功能?因为如果不开tensor和pipline并行的话似乎paddle的sharding并不会节省太多显存,或者是否还有什么别的省显存的方式?现在4卡微调7b模型batch_size开到2都会爆掉