关于General purpose fine-tuning复现问题
请问微调第一阶段使用unlabel的数据的格式是什么样的有参考吗,还有个问题就是有没有一阶段微调的命令和参数设置呢,感谢!
数据格式参考:https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune#2-data-format 训练命令参考:https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune#3-train 参数上:train_group_size=2, batch_size=19200
数据格式参考:https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune#2-data-format 训练命令参考:https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune#3-train 参数上:train_group_size=2, batch_size=19200
还有个问题哈,您这边论文提到的unlabel是指没有pos text,还是negative text 或者是两个都没有,仅保留query字段内容就可以,其它两个字段设置为[]?
unlabel指的是从无监督数据中挖掘中的文本对,如标题-正文。pos text一定要有,negative text可以没有。数据可以参考:https://data.baai.ac.cn/details/BAAI-MTP
我这边数据是没有hard negative的,按照上面train_group_size设置为2时会报错如下:
没有neg列表的话,需要将train_group_size设为1,不从neg中采样。