Steven Zheng
Steven Zheng
您好,向您请教一个问题
非常感谢工作的分享,很有启发!有两个问题想请教: 1. 观察到论文和代码中只复制了一个层的weight,请问有考虑过优化两个层的weight吗?比如` transformer.h[7].mlp.c_fc.weight`和`transformer.h[8].mlp.c_fc.weight`。如果想修改的话,主要在wise.py中修改吗? 2. 请问有考虑过引入bias吗?联合更新weight和bias
您好,非常感谢您的工作。最近在尝试将领域教材和文献喂给模型,想请教您关于增量预训练问题,非常感谢! ①如何处理这些文档,成为训练数据的格式。另外,教材或文献里可能有表格、图片这些模态的数据,请问是如何处理的?并喂给LLM(或者VLM?)。  ②ocr在识别完教材后,是如何构建“知识库”和“可训练数据”的?二者在处理方式上有何异同?  ③最后是预训练、微调、本地知识库,请问您在您的工作中,哪一个环节更重要?换言之,如果一个开源的llm(如chatglm),不做训练以扩充知识面,直接做rag的效果如何?还是说经过微调或预训练,才能够达到预期目标。