Wilbur0626

Results 4 comments of Wilbur0626

1. 我推理时开启top观察cpu占用量,调参数cpu_infer,将cpu占用量拉高,可以将速度提快 2. 我将embedding层也放在cuda上,会报错, 模型代码里太多to('cpu')写死了,需要去慢慢改,可以将再多点权重放在gpu上

> > 1. 我推理时开启top观察cpu占用量,调参数cpu_infer,将cpu占用量拉高,可以将速度提快 > > 2. 我将embedding层也放在cuda上,会报错, 模型代码里太多to('cpu')写死了,需要去慢慢改,可以将再多点权重放在gpu上 > > embedding层不需要放到cpu,是计算稀疏的,收益很低。 好的,感谢,不是很了解网络结构,我说错了,不是ktransformers.operators.RoPE.YarnRotaryEmbeddingV3,是model.embed_tokens,我是尝试将这部分放在cuda上

> > 1. 我推理时开启top观察cpu占用量,调参数cpu_infer,将cpu占用量拉高,可以将速度提快 > > 2. 我将embedding层也放在cuda上,会报错, 模型代码里太多to('cpu')写死了,需要去慢慢改,可以将再多点权重放在gpu上 > > embedding层不需要放到cpu,是计算稀疏的,收益很低。 目前我的GPU还空闲很多,想了解把哪些部分移过来比较合适,主要目的是为了提升GPU利用率来进一步调大cpu_infer,应该能进一步提升速度

> > > > 1. 我推理时开启top观察cpu占用量,调参数cpu_infer,将cpu占用量拉高,可以将速度提快 > > > > 2. 我将embedding层也放在cuda上,会报错, 模型代码里太多to('cpu')写死了,需要去慢慢改,可以将再多点权重放在gpu上 > > > > > > > > > embedding层不需要放到cpu,是计算稀疏的,收益很低。 > > > > > > 目前我的GPU还空闲很多,想了解把哪些部分移过来比较合适,主要目的是为了提升GPU利用率来进一步调大cpu_infer,应该能进一步提升速度...