PaddleX
PaddleX copied to clipboard
通用版面解析产线推理,内存占用不断上涨
trafficstars
Checklist:
- [√] 查找历史相关issue寻求解答
- [√] 翻阅FAQ
- [√] 翻阅PaddleX 文档
- [√] 确认bug是否在新版本里还未修复
描述问题
使用通用版面解析产线进行推理时,内存占用不断上涨直至溢出
复现
- 您是否已经正常运行我们提供的教程? 是
- 您是否在教程的基础上修改代码内容?还请您提供运行的代码 import os import time from paddlex import create_pipeline pipeline = create_pipeline(pipeline="layout_parsing_v2", device="gpu:3")
def layout_parsing(categories_path, output_dir): try: img_dir = categories_path single_start_time = time.time() # img_dir = os.path.join(image_dir, img)
output = pipeline.predict(
img_dir,
use_doc_orientation_classify=False,
use_doc_unwarping=False,
use_common_ocr=True,
use_seal_recognition=True,
use_table_recognition=False,
)
for res in output:
save_dir = output_dir
res.save_to_img(save_dir)
res.save_to_json(save_dir)
single_end_time = time.time()
script_dir = "~/project/PaddleX"
relative_path = os.path.relpath(img_dir, script_dir)
print(f"{relative_path}: ", single_end_time - single_start_time)
except Exception as e:
print(e)
if name == "main": image_path = "./seal_data/data" # 寻找文件夹中的所有图片 images = [] for root, dirs, files in os.walk(image_path): for file in files: if file.endswith(".png" or ".jpg"): images.append(os.path.join(root, file)) for img in images: layout_parsing(img, os.path.join("output", os.path.basename(root))) 3. 您使用的数据集是? pdf文本转出的带有印章的图片 4. 请提供您出现的报错信息及相关log 未到达内存上限之前,无报错,到达内存上限,会有out of memory的报错
环境
- 请提供您使用的PaddlePaddle和PaddleX的版本号 paddlepaddle-gpu==3.0.0,paddlex==3.0.0rc1
- 请提供您使用的操作系统信息,如Linux/Windows/MacOS Ubuntu24.04
- 请问您使用的Python版本是? python3.10
- 请问您使用的CUDA/cuDNN的版本号是? cuda 11.8, cudnn8.6