StarWhisper
StarWhisper copied to clipboard
求教!关于训练数据构造的问题
您好,非常感谢您的工作。最近在尝试将领域教材和文献喂给模型,想请教您关于增量预训练问题,非常感谢!
①如何处理这些文档,成为训练数据的格式。另外,教材或文献里可能有表格、图片这些模态的数据,请问是如何处理的?并喂给LLM(或者VLM?)。
②ocr在识别完教材后,是如何构建“知识库”和“可训练数据”的?二者在处理方式上有何异同?
③最后是预训练、微调、本地知识库,请问您在您的工作中,哪一个环节更重要?换言之,如果一个开源的llm(如chatglm),不做训练以扩充知识面,直接做rag的效果如何?还是说经过微调或预训练,才能够达到预期目标。