BELLE icon indicating copy to clipboard operation
BELLE copied to clipboard

BELLE: Be Everyone's Large Language model Engine(开源中文对话大模型)

Results 163 BELLE issues
Sort by recently updated
recently updated
newest added

Hello, I am Korean. I tested using ELLE_INFER_COLAB.ipynb and confirmed that it works fine. Thank you very much for your information sharing. However, I am Korean, so it is very...

你好,我使用 BELLE-LLAMA-7B-2M或者 BELLE-7B-2M的模型去推理,在4090显卡上,速度总是特别慢,需要约7分钟才能得到一个推理结果,而且和输入的token数似乎关系不大,即使是比较短的prompt,速度也很慢。请问下有没有什么参数可以调整,能够让推理性能变快的? 谢谢! 目前就是默认参数: device = torch.device('cuda') model = LlamaForCausalLM.from_pretrained(ckpt, device_map='auto', low_cpu_mem_usage=True) tokenizer = AutoTokenizer.from_pretrained(ckpt) prompt = "Human: 写一首中文歌曲,赞美大自然 \n\nAssistant: " input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device) generate_ids = model.generate(input_ids, max_new_tokens=500,...

请问如何进行二次预训练,后续会提供教程吗??

您好,在使用finetune脚本使用指令微调数据集微调bloom-7b模型时前几个step出现: tried to get lr value before scheduler/optimizer started stepping, returning lr=0 这个warning是什么原因呢? bloom config为: { "model_type": "bloom", "model_name_or_path": "bigscience/bloomz-7b1-mt", "data_path": "data/res/merge_data.json", "output_dir": "trained_models/bloom", "per_device_train_batch_size": 1, "num_epochs": 2, "learning_rate": 1e-5,...

我查看了bloom-7B是基于FP16的参数,模型大小十几个G。 为什么belle-7B模型大小来到了二十多个G,是从FP16转移到了FP32吗?

![20230412-104934](https://user-images.githubusercontent.com/34636084/231335588-65936724-c3f0-4036-9d36-7c9769bb7959.jpeg) 8卡4090推理结果(双卡及以上都是这种乱码的形式) ![20230412-105054](https://user-images.githubusercontent.com/34636084/231335741-5eb8998b-de1b-4514-9177-9a89423be7a6.jpeg) 单卡4090推理结果 以上是使用CUDA_VISIBLE_DEVICES控制卡的数量 请问有可能是什么原因造成的呢?

Hi all, I am using BELLE-LLaMA-13B-2M-enc. It always give short answers, even though I raised the max_new_tokens to 1024. What might be wrong? Any tips regarding how to generate good...

你好,本人准备想站在巨人的肩膀上继续做一点统一对话大模型的finetune; 看到贵公司BELLE-LLAMA-13b-2M模型性能很有优异,想继续添砖加瓦;所以想咨询一下你们的2M数据和你们的10M和1.5M的数据的重合部分是?

使用lora训练llama-65b的模型的时候使用4M instruction数据模型无法开始训练,但是减少数据量到0.5M发现可以训练,请问是什么原因呀? 使用8块A100训练,检查了内存没有溢出,GPU显存也还有20G富裕。 日志如下: 2023-04-12 21:01:30 - original_train.py[line:175] - INFO: num_gpus = 8, training_nums = 4112446, t_total = 249238, warmup_steps = 7477 start train... 2023-04-12 21:01:32 - original_train.py[line:175] - INFO:...