MOSS icon indicating copy to clipboard operation
MOSS copied to clipboard

raise ValueError( ValueError: At least one of the model submodule will be offloaded to disk, please pass along an `offload_folder`.

Open ctjian opened this issue 2 years ago • 6 comments

ctjian avatar Apr 22 '23 06:04 ctjian

Hi @ctjian 出现该问题是由于您的内存与显存均无法容纳该模型,因此需要将模型的一部分参数下移至硬盘。您可以尝试;

  1. 换用显存更大的显卡或者增加显卡数量。请通过设置环境变量 CUDA_VISIBLE_DEVICES 来设置模型可用的显卡数量,例如 该位置
  2. 提高 CPU 可用内存;
  3. load_checkpoint_and_dispatch 函数中设置 offload_folder 参数,例如 该位置(请注意该操作可能严重降低模型推理的效率)。

00INDEX avatar Apr 22 '23 07:04 00INDEX

Hi @ctjian 出现该问题是由于您的内存与显存均无法容纳该模型,因此需要将模型的一部分参数下移至硬盘。您可以尝试;

  1. 换用显存更大的显卡或者增加显卡数量。请通过设置环境变量 CUDA_VISIBLE_DEVICES 来设置模型可用的显卡数量,例如 该位置
  2. 提高 CPU 可用内存;
  3. load_checkpoint_and_dispatch 函数中设置 offload_folder 参数,例如 该位置(请注意该操作可能严重降低模型推理的效率)。

怎么改?我这边加了参数报错NameError: name 'offload_folder' is not defined

YIZXIY avatar Apr 22 '23 23:04 YIZXIY

有解决了吗?需要修改什么参数合适

wmqok avatar Apr 23 '23 03:04 wmqok

例如修改“moss_cli_demo.py”,指定参数“offload_folder”

model = load_checkpoint_and_dispatch( raw_model, model_path, device_map="auto", no_split_module_classes=["MossBlock"], dtype=torch.float16, #指定offload_folder路径 offload_folder="/home/parallels/MOSS/temp", )

ilsjx avatar Apr 23 '23 12:04 ilsjx

例如修改“moss_cli_demo.py”,指定参数“offload_folder”

model = load_checkpoint_and_dispatch( raw_model, model_path, device_map="auto", no_split_module_classes=["MossBlock"], dtype=torch.float16, #指定offload_folder路径 offload_folder="/home/parallels/MOSS/temp", )

➜ python moss_cli_demo.py Fetching 17 files: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 17/17 [00:00<00:00, 9150.82it/s] Waiting for all devices to be ready, it may take a few minutes... [1] 26628 killed python moss_cli_demo.py

加上了,但是输出结果是这样的

liwenkun avatar Apr 24 '23 18:04 liwenkun

看上去是超时后进程杀掉了,是什么硬件配置在跑?

2023年4月25日 02:46,李文坤 @.***> 写道:

例如修改“moss_cli_demo.py”,指定参数“offload_folder”

model = load_checkpoint_and_dispatch( raw_model, model_path, device_map="auto", no_split_module_classes=["MossBlock"], dtype=torch.float16, #指定offload_folder路径 offload_folder="/home/parallels/MOSS/temp", )

➜ python moss_cli_demo.py Fetching 17 files: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 17/17 [00:00<00:00, 9150.82it/s] Waiting for all devices to be ready, it may take a few minutes... [1] 26628 killed python moss_cli_demo.py

加上了,但是输出结果是这样的

— Reply to this email directly, view it on GitHubhttps://github.com/OpenLMLab/MOSS/issues/33#issuecomment-1520656866, or unsubscribehttps://github.com/notifications/unsubscribe-auth/AXFIFGLE7Y26C65KMLHZH5TXC3DBBANCNFSM6AAAAAAXHUWQ3A. You are receiving this because you commented.Message ID: @.***>

ilsjx avatar Apr 25 '23 07:04 ilsjx