wongs19 comments

Results 6 comments of


                                            wongs19

权重组合问题

> 简单做法就是使用线性组合，但感觉这样组合就是在试如何加权组合。看了一篇博客，是将每个单值权重构建一个图，博主可以看下交流下呀https://xie.infoq.cn/article/eb0960022e26fa221ffc11e00

swift框架使用lora微调Qwen3-Embedding-0.6B，lora merge后结果和没微调的时候一样

> 能否给一下“eval会报错“eval_loss”的问题”的具体报错？另外，merge后的结果和没微调一样，那不merge会有效果吗 1、报错信息如下：[rank2]: Traceback (most recent call last): [rank2]: File "/opt/conda/envs/qwen3-py310_st/lib/python3.10/site-packages/swift/cli/sft.py", line 10, in [rank2]: sft_main() [rank2]: File "/opt/conda/envs/qwen3-py310_st/lib/python3.10/site-packages/swift/llm/train/sft.py", line 321, in sft_main [rank2]: return SwiftSft(args).main() [rank2]: File "/opt/conda/envs/qwen3-py310_st/lib/python3.10/site-packages/swift/llm/base.py",...

swift框架使用lora微调Qwen3-Embedding-0.6B，lora merge后结果和没微调的时候一样

> 第一个问题应该是eval数据过少的问题第二个问题，如果直接使用我们的推理方法是不是生效的呢：https://github.com/modelscope/ms-swift/blob/main/examples/deploy/embedding/client.py 1、我有尝试在比较大的eval数据上跑，还是有这个问题。不确定您是否能复现。rejected_response的list长度需要对齐吗？ 2、后面我试下你们的推理方法。感谢

swift框架使用lora微调Qwen3-Embedding-0.6B，lora merge后结果和没微调的时候一样

> > > 第一个问题应该是eval数据过少的问题第二个问题，如果直接使用我们的推理方法是不是生效的呢：https://github.com/modelscope/ms-swift/blob/main/examples/deploy/embedding/client.py > > > > > > 1、我有尝试在比较大的eval数据上跑，还是有这个问题。不确定您是否能复现。rejected_response的list长度需要对齐吗？ 2、后面我试下你们的推理方法。感谢 > > 1. rejected-reponse不需要长度对齐，这个之前有个bug已经修复了，使用最新的main分支或者最新的ms-swift包就可以 > 2. 如果还有报错，可以再贴一下命令，我直接复现下版本：transformers 4.55.0 ms-swift 3.8.0.dev0 export INFONCE_TEMPERATURE=0.01 export INFONCE_USE_BATCH=False export INFONCE_MASK_FAKE_NEGATIVE=False...

swift框架使用lora微调Qwen3-Embedding-0.6B，lora merge后结果和没微调的时候一样

> 我这里还是没报错： > > ``` > {'loss': 1.49420977, 'grad_norm': 532.29472268, 'learning_rate': 5.6e-06, 'epoch': 0.17, 'global_step/max_steps': '1/6', 'percentage': '16.67%', 'elapsed_time': '12s', 'remaining_time': '1m 3s', 'memory(GiB)': 3.89, 'train_speed(iter/s)': 0.078176} > Train: 33%|█████████████████████████████████████...

swift框架使用lora微调Qwen3-Embedding-0.6B，lora merge后结果和没微调的时候一样

> ms-swift是main分支，transformers是4.54.* 感谢，我会把环境check下再尝试