Sowhat007 comments

Results 6 comments of


                                            Sowhat007

微调模型不能在使用web_demo.py运行

谢谢楼上的方法，我这里尝试用本地下载的VisualGLM模型也遇到小问题，会提示没有model_config.json，我看了huggingface上确实没有这个文件https://huggingface.co/THUDM/visualglm-6b/tree/main

No sentence-transformers model found with name GanymedeNil/text2vec-large-chinese. Creating a new one with MEAN pooling

> > 因为这个是huggingface的模型，不符合sentence transformer的规范，所以warn一下，但是结果依然可以用 > > 直接复制一个pooling文件过来就不会警告了，但是其实不影响使用复制pooling和module.json过来会报错，会找你要sentence_xlnet_config.json 不管他就好了。

Inference with 2 GPUs

Maybe you are using cpu to do the inference job. Switch to the right environment and try this in python: `import torch` `torch.cuda.is_available()` If it's _false_, then you are using...

谢谢！我们按照你的建议试了一下，结果如下： 1，改为原生llama-7b后问题没有明显好转，估计可以排除这个因素。 2，用了固定形式的instruction，效果有所提升，当输入对应的instruction时，可以按照训练数据给出输出。我们也固定了输出的形式，用"1.第一类\n2.第二类\n3.第三类"的结构。模型的输出中，前几个回答就是正确答案！但是问题是模型会持续输出不对的答案。 3，模型失去了泛用能力，当我让他推荐电影或者写一段代码，他也会给出我分类任务的结果。而且英文任务也受到了同样的影响，不管问啥，输出都睡以"1.XXX\n2.XXX\n3.XXX"的形式输出。个人感想： 1，垂直领域的数据量过大会导致模型失去泛用能力，甚至失去语言能力，即说人话的能力，因为我们的训练数据没有说人话，而是给出一个结果清单，所以模型面对大部分任务都直接给出结果清单。 2，需要找到一种方式，让模型知道什么时候停止。我的估计是，训练数据需要保留推理逻辑。就像[Chinese-Vicuna-medical](https://github.com/Facico/Chinese-Vicuna/blob/master/docs/performance-medical.md) 中，第三种方式的回答也不完全正确。 3，试一试LLaMA-13b，估计泛用性受损可能会小一些？（待实验）

使用垂直领域数据集进行断点训练后的几个问题

感谢！我之前猜想，用了中文的checkpoint或中文模型入BELLE-7b做底，就可以保留说中文人话的能力，实际上并不是。增加新知识数据训练并不是线性地增加模型效果，而是像您说的点，新的数据源加入后，需要重新训练模型，比如混入一些数据，比如从某些早期的断点开始训练，否则会失去之前的能力。所以大模型训练起来真的贵，要新增能力就得全盘考虑。大模型相比小模型有了创造性和泛用性，也使得它不准确。在专业的垂直领域，特定且专业的任务，小模型还有一定的优势。大模型涌现能力的原因至今也没有定论，openAI自己也说重做的话还不一定能复现效果。这个领域还待持续探索~

每次到“正在搜索XX文件”时，搜索完第四个文件就开始总结了，无论参数怎么设置

librarys里面的对应的最大抽取数量也要改。比如我就是用的rtst，在library和librarys下面的rtst的最大抽取数量都改大： library: **strategy: "calc:2 rtst:8 agents:0"** #库参数，每组参数间用空格分隔，冒号前为知识库类型，后为抽取数量。 #知识库类型: #bing cn.bing搜索，仅国内可用，目前处于服务降级状态 #sogowx sogo微信公众号搜索，可配合相应auto实现全文内容分析 #fess fess搜索引擎 #rtst 支持实时生成的sentence_transformers #remote 调用远程闻达知识库，用于集群化部署 #kg 知识图谱,暂未启用 #特殊库： #mix 根据参数进行多知识库融合 #agents 提供网络资源代理，没有知识库查找功能，所以数量为0 **count: 11** #最大抽取数量（所有知识库总和） step: 2...