i4never comments

Results 24 comments of


                                            i4never

Bounding boxes on characters with rotation are incorrect

Is there any way I can tell a LTChar is rotated now?

关于项目requirements文件中组件版本问题

这个错误是由于之前就安装的`onnxruntime` `opencv-python` ... 等等的package引起的依赖库版本问题，这些库TigerBot没有使用。修复这个问题有两个选择 - 使用`virtualenv` `conda`等虚拟环境，虚拟环境就是为解决这类问题而存在的（推荐） - 按照pip提示信息升级相关库，但是由于没有经过测试，可能会带来后续问题

Fix deadlock in PipeEngine._exec_recv_grads

rebase master

Fix deadlock in PipeEngine._exec_recv_grads

Hi @tjruwase, Could you review this pls?

Suggestion: Lets support LLM

> It's interesting. > > ![image](https://user-images.githubusercontent.com/6737785/250474093-528f2c22-7e98-488e-8aca-306aa0d90392.png) Is this available now?

Fix deadlock in PipeEngine._exec_recv_grads

sure, I'm working on this.

我们的代码支持单机多卡，多机多卡可以参考deepspeed的文档: [https://www.deepspeed.ai/getting-started/#resource-configuration-multi-node](https://www.deepspeed.ai/getting-started/#resource-configuration-multi-node)。与单机相比，多机训练主要需要以下几个步骤： 1. 配置机器间的互信，包括ssh pubkey认证以及hosts中机器alias的配置。如果机器起名为`node0` `node1` `node2` 确保任意两台机器间可以通过`ssh nodeX`直接登陆。 2. 在每台机器上配置相同的cuda、python环境。一般通过共享硬盘及conda实现。 3. 在所有节点上通过deepspeed launcher或torch launcher唤起训练脚本。一般在一台机器上通过脚本及pdsh实现，需要注意脚本的node rank、master port/addr等参数配置。从我们的经验来说，一台8卡40G，1TB内存的机器足够在deep3 + offload的情况下微调70B模型。多机多卡可以直接以“deepspeed multinode”为关键词搜索，可以找到许多较例子。

exits with return code = -9

可以在启动脚本的同时，`watch -n 1 'free -h'` 观察一下内存情况，如果内存耗尽，可以检察是不是数据量太大导致的问题。如果显存耗尽，考虑调小`--per_device_train_batch_size`，同时参考[https://huggingface.co/docs/transformers/main_classes/deepspeed#how-to-choose-which-zero-stage-and-offloads-to-use-for-best-performance](https://huggingface.co/docs/transformers/main_classes/deepspeed#how-to-choose-which-zero-stage-and-offloads-to-use-for-best-performance)推荐的方式修改deepspeed配置。

13b-chat使用llama.cpp转换模型的时候，词表长度对不上

你好，这是因为pretrain时候对词表进行了分片，由于分片均匀要求，对embedding和lm head做了pad处理。可以试试用以下代码转换后的模型： ```python import transformers model = transformers.AutoModelForCausalLM.from_pretrained('/home/rsync_user/tigerbot-13b-chat', torch_dtype=torch.bfloat16) model.resize_token_embeddings(60515) model.save_pretrained('./tigerbot-13b-chat-vocab-60515') ``` resize会丢弃embedding与lm_head的末尾pad部份。 https://github.com/huggingface/transformers/blob/869733ab621495b938d0754176f7f1e360ae7ea9/src/transformers/modeling_utils.py#L1581

请问支持fastchat推理框架吗

多数是停止条件的问题，框架没有识别到tokenizer.eos_token_id，需要针对具体框架调整。