sunzx8

Results 22 comments of sunzx8

> 我们实验中使用的是faiss + pyserini: https://github.com/FlagOpen/FlagEmbedding/tree/master/C_MTEB/MLDR#hybrid-retrieval-dense--sparse > > 社区中有一些实现:[vespa](https://github.com/vespa-engine/pyvespa/blob/master/docs/sphinx/source/examples/mother-of-all-embedding-models-cloud.ipynb) 请问如果想用混合检索去测试mteb应该怎么做

I also find that the response from local machine will try to edit the input instruction but the webui won't, and if I ask the same question, the local model...

> 您好,感谢您的关注。finetune 1.2现在看性价比没有很高了,因为那个模型有点太大了(40B),我这两天会准备一下1.5版本的finetune。 您好,请问现在可以finetune 1.5了吗

> > 请问按您教程里的来做,最后会报错没有flash_attn,使用的是V100,有解决方案吗? > > 解决方案:将model.config.attn_implementation设为`eager`,拉下最新代码,用`use_flash_attn false` 请问全参微调internVL-V1-5用您这个框架需要多大的显存

> > 请问按您教程里的来做,最后会报错没有flash_attn,使用的是V100,有解决方案吗? > > 解决方案:将model.config.attn_implementation设为`eager`,拉下最新代码,用`use_flash_attn false` 我看readme里面 写的是只用4*72G就可以全参,请问这是怎么做到的,这个不是26B得参数吗

> > 请问全参微调internVL-V1-5用您这个框架需要多大的显存 > > 你好,4*72G是一个参考值,训练显存会根据训练数据的图片大小动态变化,这是我刚才全参训练的一个占用情况 ![image](https://private-user-images.githubusercontent.com/112739147/328810273-ff3925ab-ed42-4463-aaac-b064a5e2c818.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTUxNjA1MDcsIm5iZiI6MTcxNTE2MDIwNywicGF0aCI6Ii8xMTI3MzkxNDcvMzI4ODEwMjczLWZmMzkyNWFiLWVkNDItNDQ2My1hYWFjLWIwNjRhNWUyYzgxOC5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjQwNTA4JTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI0MDUwOFQwOTIzMjdaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT0xYjM3ZDk2Njc4MmI3NTA2NTJhYzY5YTg3Yzk4ODUyZTRjYzM3MDYyYWZmMTg2MjFhMDNmZmI0NGJmOWM5ODQzJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCZhY3Rvcl9pZD0wJmtleV9pZD0wJnJlcG9faWQ9MCJ9.52XlNhgmwwAL8jj0qRNUA-S5cAXM4Lt0BBTJzTv80Pc) 很感谢您,请问您的意思是微调的照片分辨率会影响训练的显存吗?请问您这是多大的图片

> > 请问全参微调internVL-V1-5用您这个框架需要多大的显存 > > 你好,4*72G是一个参考值,训练显存会根据训练数据的图片大小动态变化,这是我刚才全参训练的一个占用情况 ![image](https://private-user-images.githubusercontent.com/112739147/328810273-ff3925ab-ed42-4463-aaac-b064a5e2c818.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTUxNjA1MDcsIm5iZiI6MTcxNTE2MDIwNywicGF0aCI6Ii8xMTI3MzkxNDcvMzI4ODEwMjczLWZmMzkyNWFiLWVkNDItNDQ2My1hYWFjLWIwNjRhNWUyYzgxOC5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjQwNTA4JTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI0MDUwOFQwOTIzMjdaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT0xYjM3ZDk2Njc4MmI3NTA2NTJhYzY5YTg3Yzk4ODUyZTRjYzM3MDYyYWZmMTg2MjFhMDNmZmI0NGJmOWM5ODQzJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCZhY3Rvcl9pZD0wJmtleV9pZD0wJnJlcG9faWQ9MCJ9.52XlNhgmwwAL8jj0qRNUA-S5cAXM4Lt0BBTJzTv80Pc) 我还是有点不理解,这里的全参数是不是20B的LLM没有参与训练,只有VIT和连接器参与微调了?

> > 很感谢您,请问您的意思是微调的照片分辨率会影响训练的显存吗?请问您这是多大的图片 > > 照片大小会影响ViT输出大小进而影响模型的输入序列长度,数据集用的https://www.modelscope.cn/datasets/modelscope/coco_2014_caption/summary > > > 这里的全参数是不是20B的LLM没有参与训练,只有VIT和连接器参与微调了? > > 全参包括LLM部分,这个是log中训练参数量的信息:[INFO:swift] InternVLChatModel: 25514.1861M Params (25514.1861M Trainable [100.0000%]), 402.6563M Buffers. 您好,谢谢您的回复,请问如果我想把微调时的max_length扩宽应该怎么做?我现在发现只要我不用默认的2048(比如改成4096)就会报错 " RuntimeError: CUDA error: unspecified launch failure CUDA...

我查了一下这个batch返回的是图片的两个元素,没有input_ids 请问这是什么原因?

您好,我这里测出来是max_length的问题,请问为什么我设置max_length从2048到4096过后就会报错 RuntimeError: CUDA error: unspecified launch failure CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect. For debugging consider passing...