TigerBot
TigerBot copied to clipboard
TigerBot: A multi-language multi-task LLM
请问如果要实现基于表格的理解和问答,是不是只要整理对应表格的instruct的数据就可以了
预训练数据筛选处理的方法:数据源质量分过滤和 tf-idf soft deduping,提到的两种过滤方式是否可以提供具体的实现呢
开源的模型里哪个是100K上下文的版本?我看了最新的v6版本好像是只有8k吧?
我们收集了垂直领域的预训练数据和指令数据(混合了通用数据),应该在tigerbot-base还是tigerbot-chat上二次开发呢?我看好像大家都是基于base做二次pt和sft,但是我不想浪费掉chat版本训的数据,基于哪个版本训效果更优呢?
使用fastchat框架推理,模型回答完问题之后,还会继续输出与问题无关的文字或者续写直到max length
有几个问题请大佬指导一下: 1.官方能否提供continue pretrain(增量预训练)的脚步呢? 2.如果不能话,我想在领域数据上持续预训练,需要怎么做呢?将微调代码改一下?请大佬详细说一下,谢谢 3.如果用70B的模型持续增量预训练(非lora,全量参数更新),至少需要多少个机器呢? 感谢大佬的回复,祝愿大佬的大模型全球第一