Vvvvvv
Vvvvvv
> ### Discussed in #3156 > Originally posted by **bobo0810** March 17, 2023 对于conv、linear等基础算子,官方列表是否可以清晰列出 Tensor并行 的生效范围呢? 你好,我想请教一下,我们是不是只能使用 "from colossalai import nn as col_nn" 官方的这种形式定义模型才能使用张量并行呢?普通的torch.nn似乎并不在张量并行的生效范围。
> 我也想问 假设 模型为timm_resnet50, 配置文件配置了Tensor并行。训练过程中 模型的Tensor并行是否生效 及 哪些算子生效? 从我的实验结果来看的话,使用torch.nn配置张量并行并没有达到降低显存消耗的效果,应该是要把模型的结构替换成官方的定义形式。
> 你好,我也遇到相同的问题。 基于https://github.com/hpcaitech/ColossalAI-Examples/tree/main/features/tensor_parallel 项目进行测试, 例如,单卡消耗1707m显存,倘若四卡张量并行,每张卡应消耗430m左右,但实际测试是每张卡消耗1723m。 仅修改关键参数(nproc per node),其余不变。请问是我理解或操作有误嘛?请指正,谢谢 你用官方的代码也是这样吗?这个问题困扰我们很久了,我们在单机单卡和单机八卡这两种设置下,显存消耗和时间消耗都是一样的,像是一种假并行。假如你能解决这个问题,请务必回复我,非常感谢!!
> 来我主页,我们邮箱交流一下把!
请问你有解决这个问题吗?我们也是多机多卡有报这个错,我们内部推测是因为没有设置免密登录,不知道你有没有解决,想请教一下。
Hi @joan126 Could you please provide details of how to fix it? Thanks!