StarWhisper 求教！关于训练数据构造的问题

求教！关于训练数据构造的问题

Open zhengguanyu opened this issue 9 months ago • 1 comments

您好，非常感谢您的工作。最近在尝试将领域教材和文献喂给模型，想请教您关于增量预训练问题，非常感谢！ ①如何处理这些文档，成为训练数据的格式。另外，教材或文献里可能有表格、图片这些模态的数据，请问是如何处理的？并喂给LLM（或者VLM？）。 ②ocr在识别完教材后，是如何构建“知识库”和“可训练数据”的？二者在处理方式上有何异同？ ③最后是预训练、微调、本地知识库，请问您在您的工作中，哪一个环节更重要？换言之，如果一个开源的llm（如chatglm），不做训练以扩充知识面，直接做rag的效果如何？还是说经过微调或预训练，才能够达到预期目标。

Jun 03 '24 14:06 zhengguanyu

StarWhisper StarWhisper copied to clipboard

求教！关于训练数据构造的问题

StarWhisper
StarWhisper copied to clipboard