FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

bge-large-zh微调大致需要多少数据量?

Open Powerdiao opened this issue 1 year ago • 3 comments

Powerdiao avatar Dec 20 '23 09:12 Powerdiao

几千条大致就能微调,不过高质量数据越多越好。

staoxiao avatar Dec 20 '23 15:12 staoxiao

几千条大致就能微调,不过高质量数据越多越好。

好的,谢谢。请问pos和neg的数量有什么讲究吗?

Powerdiao avatar Dec 22 '23 03:12 Powerdiao

没有讲究。neg的数量最好大于train_group_size参数,这样避免因为neg太少导致对同一个neg重复采样

staoxiao avatar Dec 22 '23 09:12 staoxiao