i4never
i4never
Is there any way I can tell a LTChar is rotated now?
这个错误是由于之前就安装的`onnxruntime` `opencv-python` ... 等等的package引起的依赖库版本问题,这些库TigerBot没有使用。修复这个问题有两个选择 - 使用`virtualenv` `conda`等虚拟环境,虚拟环境就是为解决这类问题而存在的(推荐) - 按照pip提示信息升级相关库,但是由于没有经过测试,可能会带来后续问题
rebase master
Hi @tjruwase, Could you review this pls?
> It's interesting. > >  Is this available now?
sure, I'm working on this.
我们的代码支持单机多卡,多机多卡可以参考deepspeed的文档: [https://www.deepspeed.ai/getting-started/#resource-configuration-multi-node](https://www.deepspeed.ai/getting-started/#resource-configuration-multi-node)。 与单机相比,多机训练主要需要以下几个步骤: 1. 配置机器间的互信,包括ssh pubkey认证以及hosts中机器alias的配置。如果机器起名为`node0` `node1` `node2` 确保任意两台机器间可以通过`ssh nodeX`直接登陆。 2. 在每台机器上配置相同的cuda、python环境。一般通过共享硬盘及conda实现。 3. 在所有节点上通过deepspeed launcher或torch launcher唤起训练脚本。一般在一台机器上通过脚本及pdsh实现,需要注意脚本的node rank、master port/addr等参数配置。 从我们的经验来说,一台8卡40G,1TB内存的机器足够在deep3 + offload的情况下微调70B模型。 多机多卡可以直接以“deepspeed multinode”为关键词搜索,可以找到许多较例子。
可以在启动脚本的同时,`watch -n 1 'free -h'` 观察一下内存情况,如果内存耗尽,可以检察是不是数据量太大导致的问题。如果显存耗尽,考虑调小`--per_device_train_batch_size`,同时参考[https://huggingface.co/docs/transformers/main_classes/deepspeed#how-to-choose-which-zero-stage-and-offloads-to-use-for-best-performance](https://huggingface.co/docs/transformers/main_classes/deepspeed#how-to-choose-which-zero-stage-and-offloads-to-use-for-best-performance)推荐的方式修改deepspeed配置。
你好,这是因为pretrain时候对词表进行了分片,由于分片均匀要求,对embedding和lm head做了pad处理。可以试试用以下代码转换后的模型: ```python import transformers model = transformers.AutoModelForCausalLM.from_pretrained('/home/rsync_user/tigerbot-13b-chat', torch_dtype=torch.bfloat16) model.resize_token_embeddings(60515) model.save_pretrained('./tigerbot-13b-chat-vocab-60515') ``` resize会丢弃embedding与lm_head的末尾pad部份。 https://github.com/huggingface/transformers/blob/869733ab621495b938d0754176f7f1e360ae7ea9/src/transformers/modeling_utils.py#L1581
多数是停止条件的问题,框架没有识别到tokenizer.eos_token_id,需要针对具体框架调整。