Ziqing Yang

Results 212 comments of Ziqing Yang

> > 是由tokenizer自动加的 > > ``` > from transformers import AutoModelForCausalLM, AutoTokenizer > > checkpoint = "bigscience/bloomz-7b1-mt" > > tokenizer = AutoTokenizer.from_pretrained(checkpoint) > > tokenizer(' = Valkyria Chronicles III =...

Chinese-LLaMA模型结构本身和LLaMA没有区别。 只要LLaMA能部署,Chinese-LLaMA应该也可以。

Thank you for your suggestion. We will consider the support for llama_index in our recent plan.

请提供更详细的报错信息(用什么参数、运行什么代码的错误)

另外,用LlamaTokenizer加载merged_tokenizer_hf后,请打印一下合并后的词表的长度。

非常感谢各位的关注。 训练相关的代码因为是对我们的训练环境做了适配,所以不便直接公开,还需要进行整理; 我们目前的确没有在领域精调上投入精力,不过后续也会做这方面的考虑 此外,我们对领域数据集也并不熟悉,如果有合适的公开领域数据集,也欢迎推荐给我们。我们会考虑以此为例子提供一套精调流程。

目前发布了预训练代码,欢迎参考。

> @airaria 您好,指令精调数据里,关于「中英翻译数据」和「pCLUE数据」的采样+规则筛选后的数据可以开放吗? 另外,想咨询了解下选取这两个数据集是出于什么考虑? > > 谢谢! #104

server.py是你自己的启动脚本吗?错误似乎与chinese-llama本身无关,而且相关信息太少无法定位问题。 建议到使用到的相关项目中查找解决方案。

merge_tokenizers的代码没有在fast tokenizers上调试过。 建议使用普通的tokenizer