TencentPretrain
TencentPretrain copied to clipboard
用自己的中文数据的话,preprocess中需要把数据格式调整成什么形式即可?这部分相关说明有吗?目标是想做llama的增量预训练
用自己的中文数据的话,preprocess中需要把数据格式调整成什么形式即可?这部分相关说明有吗?目标是想做llama的增量预训练
看他数据样例有