BELLE issues

Results 163 BELLE issues

Sort by recently updated

I would like to ask you to create an additional Korean-based version.

Hello, I am Korean. I tested using ELLE_INFER_COLAB.ipynb and confirmed that it works fine. Thank you very much for your information sharing. However, I am Korean, so it is very...

EddyLab-AI

如何提高推理的性能

你好，我使用 BELLE-LLAMA-7B-2M或者 BELLE-7B-2M的模型去推理，在4090显卡上，速度总是特别慢，需要约7分钟才能得到一个推理结果，而且和输入的token数似乎关系不大，即使是比较短的prompt，速度也很慢。请问下有没有什么参数可以调整，能够让推理性能变快的？谢谢！目前就是默认参数： device = torch.device('cuda') model = LlamaForCausalLM.from_pretrained(ckpt, device_map='auto', low_cpu_mem_usage=True) tokenizer = AutoTokenizer.from_pretrained(ckpt) prompt = "Human: 写一首中文歌曲，赞美大自然 \n\nAssistant: " input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device) generate_ids = model.generate(input_ids, max_new_tokens=500,...

ianzangwill2

二次预训练

请问如何进行二次预训练，后续会提供教程吗？？

Kouuh

出现如下warning: tried to get lr value before scheduler/optimizer started stepping, returning lr=0

您好，在使用finetune脚本使用指令微调数据集微调bloom-7b模型时前几个step出现： tried to get lr value before scheduler/optimizer started stepping, returning lr=0 这个warning是什么原因呢？ bloom config为: { "model_type": "bloom", "model_name_or_path": "bigscience/bloomz-7b1-mt", "data_path": "data/res/merge_data.json", "output_dir": "trained_models/bloom", "per_device_train_batch_size": 1, "num_epochs": 2, "learning_rate": 1e-5,...

ZeyuTeng96

请问为什么微调后的权重大小翻倍

我查看了bloom-7B是基于FP16的参数，模型大小十几个G。为什么belle-7B模型大小来到了二十多个G，是从FP16转移到了FP32吗？

ninghongbo123

belle_7b模型多卡推理结果不对，单卡推理正常

![20230412-104934](https://user-images.githubusercontent.com/34636084/231335588-65936724-c3f0-4036-9d36-7c9769bb7959.jpeg) 8卡4090推理结果（双卡及以上都是这种乱码的形式） ![20230412-105054](https://user-images.githubusercontent.com/34636084/231335741-5eb8998b-de1b-4514-9177-9a89423be7a6.jpeg) 单卡4090推理结果以上是使用CUDA_VISIBLE_DEVICES控制卡的数量请问有可能是什么原因造成的呢？

Crystalxd

Always getting short answers. What might be wrong?

Hi all, I am using BELLE-LLaMA-13B-2M-enc. It always give short answers, even though I raised the max_new_tokens to 1024. What might be wrong? Any tips regarding how to generate good...

mikeda100

大佬 7b bloom 大约需要多大的内存在非lora 的情况下，单机两张24 3090可以吗？

liuliuNLP

数据集咨询

你好，本人准备想站在巨人的肩膀上继续做一点统一对话大模型的finetune；看到贵公司BELLE-LLAMA-13b-2M模型性能很有优异，想继续添砖加瓦；所以想咨询一下你们的2M数据和你们的10M和1.5M的数据的重合部分是？

cxfzzj

4M数据时模型打完trainer.train 的log之后长时间卡主没有反应

使用lora训练llama-65b的模型的时候使用4M instruction数据模型无法开始训练，但是减少数据量到0.5M发现可以训练，请问是什么原因呀？使用8块A100训练，检查了内存没有溢出，GPU显存也还有20G富裕。日志如下： 2023-04-12 21:01:30 - original_train.py[line:175] - INFO: num_gpus = 8, training_nums = 4112446, t_total = 249238, warmup_steps = 7477 start train... 2023-04-12 21:01:32 - original_train.py[line:175] - INFO:...

muziyongshixin

BELLE
BELLE copied to clipboard

Metadata

I would like to ask you to create an additional Korean-based version.

如何提高推理的性能

二次预训练

出现如下warning: tried to get lr value before scheduler/optimizer started stepping, returning lr=0

请问为什么微调后的权重大小翻倍

belle_7b模型多卡推理结果不对，单卡推理正常

Always getting short answers. What might be wrong?

大佬 7b bloom 大约需要多大的内存在非lora 的情况下，单机两张24 3090可以吗？

数据集咨询

4M数据时模型打完trainer.train 的log之后长时间卡主没有反应

← Metadata

Owner

Metadata

BELLE BELLE copied to clipboard

Metadata

← Metadata

Owner

Metadata

BELLE
BELLE copied to clipboard