aisen comments

Results 8 comments of


                                            aisen

reranker模型微调会出现数据喂进去，显存占用越来越多，没有批次处理数据清理机制，导致百万级数据微调训练过程很容易报错内存

内存溢出错误

reranker模型微调会出现数据喂进去，显存占用越来越多，没有批次处理数据清理机制，导致百万级数据微调训练过程很容易报错内存

我对源码做了如下优化：使用更高效的数据读取方式: 通过datasets库的流式API来逐步读取数据，避免一次加载整个数据集到内存中。动态数据加载: 只有在__getitem__方法被调用时才加载和处理数据。利用DataLoader的num_workers: 通过多线程来加速数据加载。我在项目中测试完成提交一下代码，ok不

reranker模型微调会出现数据喂进去，显存占用越来越多，没有批次处理数据清理机制，导致百万级数据微调训练过程很容易报错内存

![image](https://github.com/FlagOpen/FlagEmbedding/assets/55675532/2679050b-476d-4e90-9d73-0a4a2098f36d) 修改了一下上述文件

reranker模型微调会出现数据喂进去，显存占用越来越多，没有批次处理数据清理机制，导致百万级数据微调训练过程很容易报错内存

好的，后面项目测试完成再来提交代码

Am I fine-tuning gemma-2b or bge-reranker-v2-gemma?

我在30万Paper的QD对的数据集上微调bge-reranker-v2-gemma，梯度下降很慢，我现在设置的num_train_epochs=1，我需要多训练几轮嘛，训练进度60% loss从1.5下降到0.98，感觉一批次训练完，loss应该还是会比较高0.7左右，我训练再训练一轮嘛？

怎么使用bge-multilingual-gemma2做数据的向量化呢，我只有docs没有querys，期望相关作者看到能回复一下

![模型使用](https://github.com/user-attachments/assets/b9bc89a2-2eed-4a22-90c5-9e568ed70a97) 这里是一个query和docs的任务我是需要修改prompt 然后只传docs 只获取docs的embedding嘛

怎么使用bge-multilingual-gemma2做数据的向量化呢，我只有docs没有querys，期望相关作者看到能回复一下

不需要再调整prompt也就是query_instruction_for_retrieval的参数内容嘛？

怎么使用bge-multilingual-gemma2做数据的向量化呢，我只有docs没有querys，期望相关作者看到能回复一下

好的感谢