Cornucopia.AI
Cornucopia.AI
可能跟 sentencepiece 版本有关,具体参考 requirments.txt
`效果对比 SimCLUE有什么用? 可以使用SimCLUE进行对比学习或作为通用数据训练模型,使得语义理解或搜索等相关场景模型具有较好的基础,并最终促进业务场景效果提升。 召回场景:语义检索场景,使用train_pair.json训练后,再使用业务数据训练,相对于直接业务训练,效果提升5个点(84%--->89%)。 排序场景:同一个语义检索场景,在召回基础上,进一步使用train_rank.json训练后,再使用业务排序数据训练模型,效果进一步提升2个点(92%--->94%)` 您好 请问咱这个对比实验的项目是否已开源?求链接,谢谢!
> jjyu-ustc 非常感谢你的反馈! 是的,llama-7b 会存在生成的结果文不对题、以及无法自然地结束生成等情况。 我们正在选用更好的中文基础模型如 baichuan-7B等 继续做金融领域的多任务SFT 模型。 本项目-聚宝盆 作为开源项目,欢迎大家积极参与与贡献idea、代码、数据!
您好,谢谢您对聚宝盆的支持, 关于适配 InternLM 大模型的工作即将开始,希望多多合作!(已加您微信,请求通过)
之前的是QA数据集,大约12M。 「想再请教一下是否有探究多大的instruction-tuning数据量就够用了呢」原则上是数据质量越高越好、数据多样性越多越好,一般一种类型2W+ 即可。
> same Sorry, it has been updated, welcome to use~
Sorry, it has been updated, welcome to use~
您说的「回答即是提问」是指在回答的时候含有提问的内容嘛?我没遇到,但如果有的话应该出现的频率也不高,如果出现可以通过正则之类的策略在回答中去掉,希望这个建议对你有帮助~
参考这里: # 单模型推理 bash ./scripts/infer.sh ``` BASE_MODEL="./base_models/llama-7b-hf" # or「./base_models/Linly-Chinese-LLaMA-7b-hf」 exp_tag="ori-fb" # or「"Linly-zh"」 python3 infer.py \ --base_model ${BASE_MODEL} \ --lora_weights './lora-llama-fin-'$exp_tag \ --use_lora True \ --instruct_dir './instruction_data/infer.json' \ --prompt_template 'fin_template' ```...
你好,欢迎支持聚宝盆! 你的问题我试了一下,我这边跑infer.sh 没问题。 我的运行环境及包版本: python=3.9.16 (推荐使用 python3.9) peft==0.5.0.dev0 transformers==4.31.0