wongs19
wongs19
> 简单做法就是使用线性组合,但感觉这样组合就是在试如何加权组合。看了一篇博客,是将每个单值权重构建一个图,博主可以看下交流下呀https://xie.infoq.cn/article/eb0960022e26fa221ffc11e00
> 能否给一下“eval会报错“eval_loss”的问题”的具体报错? 另外,merge后的结果和没微调一样,那不merge会有效果吗 1、报错信息如下:[rank2]: Traceback (most recent call last): [rank2]: File "/opt/conda/envs/qwen3-py310_st/lib/python3.10/site-packages/swift/cli/sft.py", line 10, in [rank2]: sft_main() [rank2]: File "/opt/conda/envs/qwen3-py310_st/lib/python3.10/site-packages/swift/llm/train/sft.py", line 321, in sft_main [rank2]: return SwiftSft(args).main() [rank2]: File "/opt/conda/envs/qwen3-py310_st/lib/python3.10/site-packages/swift/llm/base.py",...
> 第一个问题应该是eval数据过少的问题 第二个问题,如果直接使用我们的推理方法是不是生效的呢:https://github.com/modelscope/ms-swift/blob/main/examples/deploy/embedding/client.py 1、我有尝试在比较大的eval数据上跑,还是有这个问题。不确定您是否能复现。rejected_response的list长度需要对齐吗? 2、后面我试下你们的推理方法。感谢
> > > 第一个问题应该是eval数据过少的问题 第二个问题,如果直接使用我们的推理方法是不是生效的呢:https://github.com/modelscope/ms-swift/blob/main/examples/deploy/embedding/client.py > > > > > > 1、我有尝试在比较大的eval数据上跑,还是有这个问题。不确定您是否能复现。rejected_response的list长度需要对齐吗? 2、后面我试下你们的推理方法。感谢 > > 1. rejected-reponse不需要长度对齐,这个之前有个bug已经修复了,使用最新的main分支或者最新的ms-swift包就可以 > 2. 如果还有报错,可以再贴一下命令,我直接复现下 版本:transformers 4.55.0 ms-swift 3.8.0.dev0 export INFONCE_TEMPERATURE=0.01 export INFONCE_USE_BATCH=False export INFONCE_MASK_FAKE_NEGATIVE=False...
> 我这里还是没报错: > > ``` > {'loss': 1.49420977, 'grad_norm': 532.29472268, 'learning_rate': 5.6e-06, 'epoch': 0.17, 'global_step/max_steps': '1/6', 'percentage': '16.67%', 'elapsed_time': '12s', 'remaining_time': '1m 3s', 'memory(GiB)': 3.89, 'train_speed(iter/s)': 0.078176} > Train: 33%|█████████████████████████████████████...
> ms-swift是main分支,transformers是4.54.* 感谢,我会把环境check下再尝试