Xiaomeng Zhao

Results 690 comments of Xiaomeng Zhao

要不你建个新的conda环境从头走一遍再试试?

是不是改成服务之后一直在后台有进程驻留,任务完成后需要关闭进程以完成显存释放。

https://github.com/opendatalab/MinerU/blob/4983bc1df668b80fa3481fa657eb509b448bb082/demo/demo.py#L20 给"_pdf_type"赋值,可以赋值为"ocr"或"txt",对应命令行中的ocr和txt方式, 同时需要注释掉25行的pipe.pipe_classify()方法。 如果不注释掉25行,就还是auto模式,注释掉的话就是_pdf_type中指定的模式。

https://github.com/opendatalab/MinerU/blob/7cdf88c668f90c7a97821d5f26f10340dd8f5000/magic_pdf/model/doc_analyze_by_custom_model.py#L88 在这个字典结构的末尾增加一条`"apply_formula": False`即可

> > https://github.com/opendatalab/MinerU/blob/7cdf88c668f90c7a97821d5f26f10340dd8f5000/magic_pdf/model/doc_analyze_by_custom_model.py#L88 > > > > 在这个字典结构的末尾增加一条`"apply_formula": False`即可 > > 请问这样的话公式是怎么识别呢,是用OCR吗?还是说这样就不再识别公式了呢? 这样处理之后就不识别公式了

是支持这个功能的,可以参考readme中的 https://github.com/opendatalab/MinerU/tree/master#api ```python image_dir = "s3://img_bucket/" s3image_cli = S3ReaderWriter(img_ak, img_sk, img_endpoint, parent_path=image_dir) ... pipe = UNIPipe(pdf_bytes, jso_useful_key, s3image_cli) ``` 这样解析的图片会自动上传到`s3://img_bucket/` 中,生成的markdown中image标签也会是拼装好的s3路径。

> @myhloli 我使用magic-pdf 1.2.2,readme中没找到您提到这段代码,用官方api的示例markdown中的Image标签不会拼装好endpoint路径 是不会拼接endpoint和bucket路径的,因为我们经常有桶迁移的需求,要用的时候自己拼一下就行

ocr是由paddle判断环境自动调用加速的,你需要在cpu可以运行的情况下,通过安装适配自己加速硬件的paddlepaddle-?pu包,再下次启动时,如果硬件符合要求就会自动开启ocr加速 参考: https://www.paddlepaddle.org.cn/install/quick?docurl=undefined

> > > 您好,想问下,我用r源码编译安装paddleoc,直接默认使用npu,看起来是生效了,不过65g的卡直接打满了,爆显存,这正常不,或者是不是这个项目只用到了ocr某一部分,某些参数设置问题,导致出现这样的问题 不正常,paddle开启ocr正常情况占用4到5个g显存就差不多了,你这65g打满太夸张了。

Please re upload pdf files.