FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

关于General purpose fine-tuning复现问题

Open MoYang94 opened this issue 2 years ago • 5 comments

请问微调第一阶段使用unlabel的数据的格式是什么样的有参考吗,还有个问题就是有没有一阶段微调的命令和参数设置呢,感谢!

MoYang94 avatar Dec 05 '23 07:12 MoYang94

数据格式参考:https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune#2-data-format 训练命令参考:https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune#3-train 参数上:train_group_size=2, batch_size=19200

staoxiao avatar Dec 05 '23 13:12 staoxiao

数据格式参考:https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune#2-data-format 训练命令参考:https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune#3-train 参数上:train_group_size=2, batch_size=19200

还有个问题哈,您这边论文提到的unlabel是指没有pos text,还是negative text 或者是两个都没有,仅保留query字段内容就可以,其它两个字段设置为[]?

MoYang94 avatar Dec 07 '23 07:12 MoYang94

unlabel指的是从无监督数据中挖掘中的文本对,如标题-正文。pos text一定要有,negative text可以没有。数据可以参考:https://data.baai.ac.cn/details/BAAI-MTP

staoxiao avatar Dec 07 '23 10:12 staoxiao

我这边数据是没有hard negative的,按照上面train_group_size设置为2时会报错如下: 屏幕截图 2024-01-10 142105

MoYang94 avatar Jan 10 '24 06:01 MoYang94

没有neg列表的话,需要将train_group_size设为1,不从neg中采样。

staoxiao avatar Jan 10 '24 11:01 staoxiao