xiaozggggg
xiaozggggg
可以参考一下我写的这个 // 获取模型输出数据的指针 // unsigned char* output_data = reinterpret_cast(outputs[output_index].buf); float* output_data = reinterpret_cast(outputs[0].buf); // 创建一个新的整数数组来存储解释后的数据 std::vector interpreted_data(output_size); for (int i = 0; i < output_size/4; ++i) { interpreted_data[i] = output_data[i];...
> dataloader那里的数据增强, 作者是用numpy和pil实现的, 估计是在cpu上跑的, 看看能不能改成GPU处理? 这里我删了,差不多提高五分之一到4分之一的时间。但还是很慢,是因为语义分割训练就是很慢,还是说因为其他原因呢
我统计了一下主要花费时间的地方,当我设置fp16混合精度训练的时候,在utils_fit.py文件中scaler.step(optimizer)这里花费的时间很长,当不用混合精度训练的时候,在total_loss += loss.item()这里花费时间很长。 想请问一下大伙,有没有遇到同样的问题。 @bubbliiiing
> > 我统计了一下主要花费时间的地方,当我设置fp16混合精度训练的时候,在utils_fit.py文件中scaler.step(optimizer)这里花费的时间很长,当不用混合精度训练的时候,在total_loss += loss.item()这里花费时间很长。 想请问一下大伙,有没有遇到同样的问题。 @bubbliiiing > > 我想起来一件事情,用更新版本的torch会好一些,甚至torch2都行。 那我重新把cuda和cudnn都换一下吗