FlagEmbedding
FlagEmbedding copied to clipboard
原始数据量疑问
您好,问下你们用于训练的文本对的来源原始语料大概有多大啊。会低于1.3T吗
您好,没有统计过token数量,但应该远低于1.3T
谢谢您的回复。然后是直接从原始文本中抽取QA\Q-passage这样的文本对是吗
是的