Cornucopia.AI comments

Results 13 comments of


                                            Cornucopia.AI

启动模型 bash ./scripts/infer.sh 异常

可能跟 sentencepiece 版本有关，具体参考 requirments.txt

目前的语义匹配榜使用的QBQTC，SimCLUE后续会有单独的榜单吗？

`效果对比 SimCLUE有什么用？可以使用SimCLUE进行对比学习或作为通用数据训练模型，使得语义理解或搜索等相关场景模型具有较好的基础，并最终促进业务场景效果提升。召回场景：语义检索场景，使用train_pair.json训练后，再使用业务数据训练，相对于直接业务训练，效果提升5个点（84%--->89%）。排序场景：同一个语义检索场景，在召回基础上，进一步使用train_rank.json训练后，再使用业务排序数据训练模型，效果进一步提升2个点（92%--->94%）` 您好请问咱这个对比实验的项目是否已开源？求链接，谢谢！

关于测试您的模型的问题

> jjyu-ustc 非常感谢你的反馈！是的，llama-7b 会存在生成的结果文不对题、以及无法自然地结束生成等情况。我们正在选用更好的中文基础模型如 baichuan-7B等继续做金融领域的多任务SFT 模型。本项目-聚宝盆作为开源项目，欢迎大家积极参与与贡献idea、代码、数据！

希望取得联系

您好，谢谢您对聚宝盆的支持，关于适配 InternLM 大模型的工作即将开始，希望多多合作！（已加您微信，请求通过）

请教下数据集规模

之前的是QA数据集，大约12M。「想再请教一下是否有探究多大的instruction-tuning数据量就够用了呢」原则上是数据质量越高越好、数据多样性越多越好，一般一种类型2W+ 即可。

hugface模型下载地址错误？两个都没有

> same Sorry, it has been updated, welcome to use～

hugface模型下载地址错误？两个都没有

Sorry, it has been updated, welcome to use～

楼主用llama微调时，有没有遇到过回答即是提问的情况，请问知道什么原因么？

您说的「回答即是提问」是指在回答的时候含有提问的内容嘛？我没遇到，但如果有的话应该出现的频率也不高，如果出现可以通过正则之类的策略在回答中去掉，希望这个建议对你有帮助～

如何运行推理？

参考这里： # 单模型推理 bash ./scripts/infer.sh ``` BASE_MODEL="./base_models/llama-7b-hf" # or「./base_models/Linly-Chinese-LLaMA-7b-hf」 exp_tag="ori-fb" # or「"Linly-zh"」 python3 infer.py \ --base_model ${BASE_MODEL} \ --lora_weights './lora-llama-fin-'$exp_tag \ --use_lora True \ --instruct_dir './instruction_data/infer.json' \ --prompt_template 'fin_template' ```...

运行infer.sh 报错

你好，欢迎支持聚宝盆！你的问题我试了一下，我这边跑infer.sh 没问题。我的运行环境及包版本： python=3.9.16 （推荐使用 python3.9） peft==0.5.0.dev0 transformers==4.31.0