yuanzhoulvpi

hangzhou

Results 95 comments of


                                            yuanzhoulvpi

模型并行问题

> @yuanzhoulvpi2017 用仓库代码，虽然电脑上有两块GPU，但是还是加载一块GPU，如果指定各个层在不同GPU上，会报Tensor不在一个device上的错误。你是不是用的还是老的模型文件？要用最新的

chinese_bloom 支持上下文对话吗

所谓的上下文，是把之前的对话拼接起来的，本质上没有发生变化。只不过没有在交互上做体现～ bloom是支持上下文对话的～

Chatglm6b_ModelParalle子项尝试失败，遇到模型加载问题

因为前段时间，chatglm-6b又更新代码了，但是我没更新这个代码

总是报这个错，怎么才是本地文件夹，我已经下载到本地了啊。chatglm-6b is not a local folder and is not a valid model identifier listed on 'https://huggingface.co/models'

你俩都报错，说明根本就没有下载我提供的模型[`chatglm6b-dddd`](https://huggingface.co/yuanzhoulvpi/chatglm6b-dddd)

我的模型文件从dddd版本里下的，Chatglm6b_ModelParallel这个文件夹下，只修改了cuda的配置，训练还是遇到了问题。

这个肯定不对的，dddd版本不是用来做`Chatglm6b_ModelParallel`的

我的模型文件从dddd版本里下的，Chatglm6b_ModelParallel这个文件夹下，只修改了cuda的配置，训练还是遇到了问题。

都已经吧新版本的`多卡lora`做完了，但是现在懒得发布了😂，`chatglm`版本迭代太快了。

关掉Lora微调大模型，模型并行训练报错：Expected all tensors to be on the same device, but found at least two devices, cuda:3 and cuda:0!

是的，我也是遇到这个问题，目前我还没修改这个bug😂

关掉Lora微调大模型，模型并行训练报错：Expected all tensors to be on the same device, but found at least two devices, cuda:3 and cuda:0!

具体原因，我还没找到，不知道怎么回事

只训练大模型，并行出错

目前，微调全量参数的代码，基本完成，已经进入训练和调试阶段，后面会放出来~等一等~

请问在跑Chatglm6b_ModelParallel模型的时候报这个错该怎么解决啊

你是不是修改了参数？我代码里面写的都是模型并行，但是看你的错误，感觉像是数据并行导致的问题。务必仔细看我写的`readme.md`和注意事项

‹
1
2
3
4
5
6
7
8
9
10
›