transformers_tasks icon indicating copy to clipboard operation
transformers_tasks copied to clipboard

ModuleNotFoundError: No module named 'transformers.generation'

Open magnificent1208 opened this issue 1 year ago • 10 comments

多卡finetune,出现这个问题

magnificent1208 avatar Mar 30 '23 07:03 magnificent1208

Hi,确认一下跑单卡 train.py 的时候会不会出现这个问题。

  1. 如果单卡仍出现问题:我使用的transformers版本是 4.27.1,您尝试安装一下对应版本后试试。

  2. 如果安装对应版本后还是存在问题:可以提供一下 terminal 的截图供我参考一下吗?

HarderThenHarder avatar Mar 30 '23 08:03 HarderThenHarder

Hi,确认一下跑单卡 train.py 的时候会不会出现这个问题。

  1. 如果单卡仍出现问题:我使用的transformers版本是 4.27.1,您尝试安装一下对应版本后试试。
  2. 如果安装对应版本后还是存在问题:可以提供一下 terminal 的截图供我参考一下吗?

感谢,1 有效。 但出现新问题:ModuleNotFoundError: No module named 'transformers_modules.THUDM.chatglm-6b.096f3de6b4959ce38bef7bb05f3129c931a3084e.tokenization_chatglm'

是需要把清华的这个模型路径,放到指定位置吗?还是我config没导入成功

magnificent1208 avatar Mar 30 '23 08:03 magnificent1208

尝试删掉之前下载的GLM缓存,并重新下载。

检查一下:~/.cache/huggingface/modules/transformers_modules 是否存在 THUDM 文件夹。

如果有,则删掉它并重新运行程序,即可重新下载。

HarderThenHarder avatar Mar 30 '23 08:03 HarderThenHarder

image 删除缓存成功跑起来。但没过多久就断了。如图 这从哪个方向debug

magnificent1208 avatar Mar 30 '23 12:03 magnificent1208

看错误截图是模型存储的时候路径已经存在导致的。

我不知道您为什么会出现这样的问题,但您可以尝试把 290 行和 291 行给注释掉:

# if not os.path.exists(cur_save_dir):
#    os.makedirs(cur_save_dir)

并删除 checkpoints_parrallel/ 目录,重新开启训练。

HarderThenHarder avatar Mar 30 '23 12:03 HarderThenHarder

看错误截图是模型存储的时候路径已经存在导致的。

我不知道您为什么会出现这样的问题,但您可以尝试把 290 行和 291 行给注释掉:

# if not os.path.exists(cur_save_dir):
#    os.makedirs(cur_save_dir)

并删除 checkpoints_parrallel/ 目录,重新开启训练。

成功训练!感谢。但是好像每次都要清缓存

magnificent1208 avatar Mar 30 '23 14:03 magnificent1208

FileNotFoundError: [Errno 2] No such file or directory: '~/.cache/huggingface/modules/transformers_modules/THUDM/chatglm-6b/969290547e761b20fdb96b0602b4fd8d863bbb85/tokenization_chatglm.py'

ModuleNotFoundError: No module named 'transformers_modules.THUDM.chatglm-6b.969290547e761b20fdb96b0602b4fd8d863bbb85.tokenization_chatglm'

我也出现类似问题,刚启动时就出现。 checkpoints_parrallel/ 目录都没有生成,还没开始训练 单卡没问题,多卡就出现这个问题。 但是.cache里是有的

hrdxwandg avatar Apr 13 '23 11:04 hrdxwandg

感觉跟进程有关?我是8卡失败,6卡有时成功

hrdxwandg avatar Apr 13 '23 12:04 hrdxwandg

有道理

---Original--- From: @.> Date: Thu, Apr 13, 2023 20:13 PM To: @.>; Cc: @.@.>; Subject: Re: [HarderThenHarder/transformers_tasks] ModuleNotFoundError: Nomodule named 'transformers.generation' (Issue #26)

感觉跟进程有关?我是8卡失败,6卡有时成功

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

magnificent1208 avatar Apr 13 '23 12:04 magnificent1208

原因找到了,是huggingface transformers的bug。 https://github.com/huggingface/transformers/issues/22506 用main分支重新安装下包就行

hrdxwandg avatar Apr 14 '23 02:04 hrdxwandg