FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

原始数据量疑问

Open zhaobinNF opened this issue 1 year ago • 3 comments

您好,问下你们用于训练的文本对的来源原始语料大概有多大啊。会低于1.3T吗

zhaobinNF avatar Dec 22 '23 08:12 zhaobinNF

您好,没有统计过token数量,但应该远低于1.3T

staoxiao avatar Dec 22 '23 12:12 staoxiao

谢谢您的回复。然后是直接从原始文本中抽取QA\Q-passage这样的文本对是吗

zhaobinNF avatar Dec 25 '23 01:12 zhaobinNF

是的

staoxiao avatar Dec 25 '23 09:12 staoxiao