albert_pytorch
albert_pytorch copied to clipboard
训练过程中albert占用的显存很大
你好: 我使用同样的数据pipeline训练QA模型,使用bert-wwm的时候可以设置batchsize到12,使用albert-xxlarge-v2只能设置batchsize到6。但是albert-xxlarge-v2的模型文件本身只有900M左右而bert-wwm的模型文件有1400M,请问有什么可能的原因造成这种情况吗?
@fatmelon 有1400M的bert-wwm模型???
@lonePatient
https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-uncased-whole-word-masking-finetuned-squad-pytorch_model.bin
你好: 我使用同样的数据pipeline训练QA模型,使用bert-wwm的时候可以设置batchsize到12,使用albert-xxlarge-v2只能设置batchsize到6。但是albert-xxlarge-v2的模型文件本身只有900M左右而bert-wwm的模型文件有1400M,请问有什么可能的原因造成这种情况吗?
你还是没有理解albert的优点。 它并不是模型小,占的显存就小。 比如albert的base 虽然只有五六十兆,但是和bert-base(三百多兆)显存基本一致。