TSH333

Results 13 comments of TSH333

@Pxtri2156 My memory usage will gradually increase during the training process, resulting in CUDA out of memory;have you solved the problem now

@ruinmessi Table 1 in your paper indicates that your result is in Coco Val-2017, but your result is in Coco Test-2017

> 用这个modelscope的代码时 ,用int4版本会出现缺少配置文件的错误 OSError: /home/shf/.cache/modelscope/hub/Shanghai_AI_Laboratory/internlm-xcomposer2-vl-7b-4bit does not appear to have a file named config.json. Checkout 'https://huggingface.co//home/shf/.cache/modelscope/hub/Shanghai_AI_Laboratory/internlm-xcomposer2-vl-7b-4bit/None' for available files. 我也遇到了这个问题

> 用这个modelscope的代码时 ,用int4版本会出现缺少配置文件的错误 OSError: /home/shf/.cache/modelscope/hub/Shanghai_AI_Laboratory/internlm-xcomposer2-vl-7b-4bit does not appear to have a file named config.json. Checkout 'https://huggingface.co//home/shf/.cache/modelscope/hub/Shanghai_AI_Laboratory/internlm-xcomposer2-vl-7b-4bit/None' for available files. @panzhang0212 作者能解答一下吗

> I provided an in-depth guide for usage on Windows. Take a look [here](https://github.com/Alienpups/OpenVoice/blob/main/docs/USAGE_WINDOWS.md).我提供了在Windows上使用的深入指南。看这里 ![image](https://github.com/myshell-ai/OpenVoice/assets/44138279/35c7af23-ae46-4a81-a4af-af6fe21d27e6)

> Hi @Cguanqin, have you downloaded the checkpoint from Kaggle or HuggingFace Hub before running the docker? > > You can follow the instruction here to get the checkpoint. https://www.kaggle.com/models/google/gemma/frameworks/pyTorch...

我训练的时候,只能用fp32,用不了fp16和bf16。感谢你的解答 ---原始邮件--- 发件人: ***@***.***> 发送时间: 2024年4月7日(周日) 晚上6:49 收件人: ***@***.***>; 抄送: ***@***.******@***.***>; 主题: Re: [QwenLM/Qwen-VL] loss 在第二个step就变成了0 (Issue #352) 用v100训练的也遇到了同样的问题,换a100就可以了,应该是数据类型的问题,v100当时只能用float16,然后a100换成bf16就好了 — Reply to this email directly, view it on GitHub, or...

> > ![image](https://private-user-images.githubusercontent.com/43326198/291514436-c0654027-d30b-44c1-b5ea-3161961a246a.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTE2MTY2MjgsIm5iZiI6MTcxMTYxNjMyOCwicGF0aCI6Ii80MzMyNjE5OC8yOTE1MTQ0MzYtYzA2NTQwMjctZDMwYi00NGMxLWI1ZWEtMzE2MTk2MWEyNDZhLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDAzMjglMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQwMzI4VDA4NTg0OFomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTVkMGExMWEzZDg1M2M4OTI2MTYzYTZhYmY3NGQ3YmY0OGJkOGRlZWM4ZTRkYTU0Y2RlODEyNDg5MDM2YzVhYzImWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.8Kj5v_ZVrhLTnS7ilAUphmCMYvxQBlgEVYni9UUFO4U) hi @ZhihuaGao , 这几个更新是针对混合训练的 > > 想问下qwenvl大佬,仅仅改变img_size扩大了一倍多的分辨率,微调后发现幻觉显著增加了,3.5k的数据,这个仅仅更改配置是不是有问题? 技术指南中 阶段2 阶段3 的训练都是 448*448 ,如果仅仅扩大分辨率 需要较多数据去训练,vit参数 全放开训练才行 我认为

> 我也遇到训练进度卡在0的问题,直接pip install deepspeed训练会卡住,从源码安装deepspeed解决,deepspeed版本0.14.2 我使用源码进行了deepspeed的安装,版本和你的一样,但是目前还是卡住不能训练;能否给出一些 细节,比如安装deepspeed需要注意的地方

> > > 我也遇到训练进度卡在0的问题,直接pip install deepspeed训练会卡住,从源码安装deepspeed解决,deepspeed版本0.14.2 > > > > > > 我使用源码进行了deepspeed的安装,版本和你的一样,但是目前还是卡住不能训练;能否给出一些 细节,比如安装deepspeed需要注意的地方 > > 我后来想了一下原因,我们卡住的原因都是用了deepspeedzero3,如果用zero2的话就应该不会报错,但是一般zero2站的显存会大一些,zero3实际上是利用内存来解决显存不够的问题,我特地看了一下用zero3的时候内存的消耗,我发现卡住的原因一般是内存占满了,甚至有时候使用到了交换内存,这就会使得电脑处理数据变慢或者卡住,因为没有多余的内存(内存条那种高速闪存)来供CPU处理数据,所以解决这个问题的最好办法就是换成zero2或者多加几根内存条,内存够用自然就好了,而且一般zero3只是在最开始的时候占用很大内存,有时候内存如果将将够能走过去的话后面就正常训练了,不能走过去就会卡住 明白