sunzx8 comments

Results 22 comments of


                                            sunzx8

bge m3混合检索

> 我们实验中使用的是faiss + pyserini: https://github.com/FlagOpen/FlagEmbedding/tree/master/C_MTEB/MLDR#hybrid-retrieval-dense--sparse > > 社区中有一些实现：[vespa](https://github.com/vespa-engine/pyvespa/blob/master/docs/sphinx/source/examples/mother-of-all-embedding-models-cloud.ipynb) 请问如果想用混合检索去测试mteb应该怎么做

Questions about tokens limit

I also find that the response from local machine will try to edit the input instruction but the webui won't, and if I ask the same question, the local model...

InternVL-Chat-V1.2的finetune耗时多久？

> 您好，感谢您的关注。finetune 1.2现在看性价比没有很高了，因为那个模型有点太大了（40B），我这两天会准备一下1.5版本的finetune。您好，请问现在可以finetune 1.5了吗

Using Swift to perform inference and fine-tune InternVL-Chat-V1.5

> > 请问按您教程里的来做，最后会报错没有flash_attn，使用的是V100，有解决方案吗？ > > 解决方案：将model.config.attn_implementation设为`eager`，拉下最新代码，用`use_flash_attn false` 请问全参微调internVL-V1-5用您这个框架需要多大的显存

Using Swift to perform inference and fine-tune InternVL-Chat-V1.5

> > 请问按您教程里的来做，最后会报错没有flash_attn，使用的是V100，有解决方案吗？ > > 解决方案：将model.config.attn_implementation设为`eager`，拉下最新代码，用`use_flash_attn false` 我看readme里面写的是只用4*72G就可以全参，请问这是怎么做到的，这个不是26B得参数吗

Using Swift to perform inference and fine-tune InternVL-Chat-V1.5

> > 请问全参微调internVL-V1-5用您这个框架需要多大的显存 > > 你好，4*72G是一个参考值，训练显存会根据训练数据的图片大小动态变化，这是我刚才全参训练的一个占用情况 ![image](https://private-user-images.githubusercontent.com/112739147/328810273-ff3925ab-ed42-4463-aaac-b064a5e2c818.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTUxNjA1MDcsIm5iZiI6MTcxNTE2MDIwNywicGF0aCI6Ii8xMTI3MzkxNDcvMzI4ODEwMjczLWZmMzkyNWFiLWVkNDItNDQ2My1hYWFjLWIwNjRhNWUyYzgxOC5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjQwNTA4JTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI0MDUwOFQwOTIzMjdaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT0xYjM3ZDk2Njc4MmI3NTA2NTJhYzY5YTg3Yzk4ODUyZTRjYzM3MDYyYWZmMTg2MjFhMDNmZmI0NGJmOWM5ODQzJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCZhY3Rvcl9pZD0wJmtleV9pZD0wJnJlcG9faWQ9MCJ9.52XlNhgmwwAL8jj0qRNUA-S5cAXM4Lt0BBTJzTv80Pc) 很感谢您，请问您的意思是微调的照片分辨率会影响训练的显存吗？请问您这是多大的图片

Using Swift to perform inference and fine-tune InternVL-Chat-V1.5

> > 请问全参微调internVL-V1-5用您这个框架需要多大的显存 > > 你好，4*72G是一个参考值，训练显存会根据训练数据的图片大小动态变化，这是我刚才全参训练的一个占用情况 ![image](https://private-user-images.githubusercontent.com/112739147/328810273-ff3925ab-ed42-4463-aaac-b064a5e2c818.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTUxNjA1MDcsIm5iZiI6MTcxNTE2MDIwNywicGF0aCI6Ii8xMTI3MzkxNDcvMzI4ODEwMjczLWZmMzkyNWFiLWVkNDItNDQ2My1hYWFjLWIwNjRhNWUyYzgxOC5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjQwNTA4JTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI0MDUwOFQwOTIzMjdaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT0xYjM3ZDk2Njc4MmI3NTA2NTJhYzY5YTg3Yzk4ODUyZTRjYzM3MDYyYWZmMTg2MjFhMDNmZmI0NGJmOWM5ODQzJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCZhY3Rvcl9pZD0wJmtleV9pZD0wJnJlcG9faWQ9MCJ9.52XlNhgmwwAL8jj0qRNUA-S5cAXM4Lt0BBTJzTv80Pc) 我还是有点不理解，这里的全参数是不是20B的LLM没有参与训练，只有VIT和连接器参与微调了？

Using Swift to perform inference and fine-tune InternVL-Chat-V1.5

> > 很感谢您，请问您的意思是微调的照片分辨率会影响训练的显存吗？请问您这是多大的图片 > > 照片大小会影响ViT输出大小进而影响模型的输入序列长度，数据集用的https://www.modelscope.cn/datasets/modelscope/coco_2014_caption/summary > > > 这里的全参数是不是20B的LLM没有参与训练，只有VIT和连接器参与微调了？ > > 全参包括LLM部分，这个是log中训练参数量的信息：[INFO:swift] InternVLChatModel: 25514.1861M Params (25514.1861M Trainable [100.0000%]), 402.6563M Buffers. 您好，谢谢您的回复，请问如果我想把微调时的max_length扩宽应该怎么做？我现在发现只要我不用默认的2048(比如改成4096)就会报错 " RuntimeError: CUDA error: unspecified launch failure CUDA...

微调internvl-v1.5报错KeyError: 'input_ids'

我查了一下这个batch返回的是图片的两个元素，没有input_ids 请问这是什么原因？

微调internvl-v1.5报错KeyError: 'input_ids'

您好，我这里测出来是max_length的问题，请问为什么我设置max_length从2048到4096过后就会报错 RuntimeError: CUDA error: unspecified launch failure CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect. For debugging consider passing...