puppet101
puppet101
@dldaisy can you share your testing code for in the wild images?
First, the number of video urls in the 'mirrored-human.json' is 270, but in the 'mirrored-human-base.zip', there are only 204 clips. Moreover, just using the name like 'raw_***', I can not...
The batch size is 1, all of the parameters are unchanged. Can you train any model correctly using this code? It seems that the training goes wrong suddenly~ When I...
Can I finetune the model on 8X V100 32GB GPUS with a smaller batch size?
您好,感谢回复,我这边试了一下8k的sp2,但是还是同样的问题,可以提供一下您那边的运行环境吗? 我现在的配置文件是: [yi_34b_200k_full_alpaca_zh_32k_sp8.log](https://github.com/InternLM/xtuner/files/15056004/yi_34b_200k_full_alpaca_zh_32k_sp8.log) 运行环境是: deepspeed 0.14.1 transformers 4.40.0 xtuner 0.1.18.dev0 torch 2.0.0+cu118
您好,我这边确认问题了,我之前不论怎么改序列并行的设置,都会报一样的错误。我后来把deepspeed的版本从0.14.0降到0.12.3,就没问题了,感谢耐心的解答哈! 另外我还有个问题,就是我这边虽然能跑起来了,但是我发现训练的步长有问题,我把的设置如下: sequence_parallel_size=8 batch_size = 1 accumulative_counts = 8 max_epochs = 3 使用alpaca_ch这个数据集,发现训练的总步数只有32,这个感觉不太对啊,alpaca-data-gpt4-chinese这个数据集,总共有5万多个样本,3个epoch,不应该总步数只有32的,辛苦帮忙看一下,谢谢!
长度是4096,这个默认会多个样本拼接到一起吗?我刚刚改成了8192,总步长现在还是32。。。但是显存占用的确是增加了
改了之后还是没有变化,您能简单介绍一下这个32是怎么计算来的吗? 谢谢~
好的,我试一下,我看您发的那个log里面,好像也是32个步数,感觉不是我自己的个例
max_iters的确是32,我把她改成max_epochs的值就可以了,现在已经可以正常跑起来了,非常感谢您的耐心解答!