windows本地如何使用PaddleOCR VL模型
看了一圈说明文档也没有看到有关指定模型位置的介绍。
可以参考PaddleOCR-VL 产线文档,对于windows用户,请使用 WSL 或者 Docker 进行环境的搭建。
玩了这么久AI与Python,你们的项目是技术文档写的最烂的一个,没有之一。做了这么多年的项目,真是让人难以想象。
- Python本身就是跨平台的,一个ocr项目还需要docker或wsl本身就不合理
- 通过命令行运行却不详细描述命令行参数。你们以为简化了步骤,其实不然,运行起来下载一堆乱七八糟的模型到c盘去了
- 说是开源了一个新的SOTA模型,整个文档全篇找不到可以配置模型位置的地方,所有开源项目里面这是唯一一个,没有之一
- 别人都是pytorch,只有你们特殊,不兼容pytorch
本来看宣传说ocr挺厉害的,想下载玩玩,模型倒是下载了,搞了半天也没看明白该配置到哪里去,真服了。我可是程序员出身,Python怎么也算是掌握,硬是没玩明白!
感谢您对 PaddleOCR 项目的关注和反馈。我们非常重视您提出的问题,并希望能在此进行说明和解答:
1. 关于 Windows 兼容性: 您提到的 Python 跨平台特性确实是其一大优势。PaddleOCR 此前的模型在 Windows 上运行良好,无需 Docker 或 WSL。然而,PaddleOCR-VL 作为我们首个多模态大模型,其结构更为复杂,目前我们仍在积极进行 Windows 平台的适配和优化工作。对于目前给您带来的不便,我们深表歉意,并建议在此期间优先使用 Linux 环境以获得最佳体验。
2. 关于文档清晰度:
- 参数说明: 为了提升PaddleOCR-VL产线文档的整体可读性和简洁性,我们将部分详细的参数说明进行了折叠处理。您可以点击展开,查看所有参数的详细说明。
- 模型加载:我们支持通过命令下载并加载本地模型权重。如果当前文档的描述不够清晰,对您造成了困扰,我们非常欢迎您提出具体的修改建议,帮助我们持续改进文档质量。
3.关于深度学习框架: PaddleOCR 作为 PaddlePaddle 生态下的重要项目,自立项之初便基于 Paddle 框架进行训练与推理,致力于为用户解决 OCR 相关问题。我们理解不同开发者有各自习惯的技术栈,如果您是 PyTorch 的深度用户,可以参考社区中一些优秀的第三方迁移项目。
最后,我们再次感谢您的反馈。所有宝贵的、建设性的意见都是我们项目前进的动力。我们理解您在使用过程中可能遇到的挫败感,并承诺会认真评估您提出的问题,并尽快进行优化和修复。期待与您共建更好的 PaddleOCR。
@LiJianmin6706 您好,非常感谢您的使用和反馈,对于windows上的50系显卡,我们提供了docker的使用方式,您只需要:
# 1. 启动一个docker容器,这里推荐使用paddlepaddle官方镜像
docker run --gpus all --name paddle -it -v $PWD:/paddle ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddle:3.2.0-gpu-cuda12.9-cudnn9.9 /bin/bash
# 2. 安装所需依赖,以下三行命令在PaddleOCR-VL使用文档中有注明(https://www.paddleocr.ai/latest/version3.x/pipeline_usage/PaddleOCR-VL.html)
python -m pip install paddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
python -m pip install -U "paddleocr[doc-parser]"
python -m pip install https://paddle-whl.bj.bcebos.com/nightly/cu126/safetensors/safetensors-0.6.2.dev0-cp38-abi3-linux_x86_64.whl
# 3. 即可进行快速体验和后续集成
paddleocr doc_parser -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png
当您成功运行后,可以考虑使用vllm部署PaddleOCR-VL-0.9B,以获得更快的速度,具体可以参考PaddleOCR-VL文档 第3节。 后续本流程将会完善到官方文档中,我们也会根据大家的使用情况支持更多硬件,期待您的关注!
玩了这么久AI与Python,你们的项目是技术文档写的最烂的一个,没有之一。做了这么多年的项目,真是让人难以想象。
- Python本身就是跨平台的,一个ocr项目还需要docker或wsl本身就不合理
- 通过命令行运行却不详细描述命令行参数。你们以为简化了步骤,其实不然,运行起来下载一堆乱七八糟的模型到c盘去了
- 说是开源了一个新的SOTA模型,整个文档全篇找不到可以配置模型位置的地方,所有开源项目里面这是唯一一个,没有之一
- 别人都是pytorch,只有你们特殊,不兼容pytorch
本来看宣传说ocr挺厉害的,想下载玩玩,模型倒是下载了,搞了半天也没看明白该配置到哪里去,真服了。我可是程序员出身,Python怎么也算是掌握,硬是没玩明白!
和你一样想吐槽。deepseek ocr就是基于torch的,模型配置是AutoModel.from_pretrained一目了然,paddle这帮人能不能学学
我就纳闷儿了你们自己推出的paddleocr-vl就不能把环境彻底打个包吗,我还得先下载docker专门部署paddlepaddle,然后再在里面装Paddleocr-vl,然后我还得下载个包着vllm的就为了用你们vlm的镜像,最后我写的代码还要挂载到paddlepaddle装了ocr-vl的容器里运行,再连另一个镜像里的vlm,不是你们这,就这么点儿活儿就这么费劲吗?
我就纳闷儿了你们自己推出的paddleocr-vl就不能把环境彻底打个包吗,我还得先下载docker专门部署paddlepaddle,然后再在里面装Paddleocr-vl,然后我还得下载个包着vllm的就为了用你们vlm的镜像,最后我写的代码还要挂载到paddlepaddle装了ocr-vl的容器里运行,再连另一个镜像里的vlm,不是你们这,就这么点儿活儿就这么费劲吗?
就用你们个vlm还得莫名奇妙的下载一堆layout模型,下载之后存放路径也不透明,真是一点儿不给内网用户活路呗??就全靠猜,去一个个翻你们的文档?
paddleocr-vl可以windows可以不用docker或者wsl吗?
我就纳闷儿了你们自己推出的paddleocr-vl就不能把环境彻底打个包吗,我还得先下载docker专门部署paddlepaddle,然后再在里面装Paddleocr-vl,然后我还得下载个包着vllm的就为了用你们vlm的镜像,最后我写的代码还要挂载到paddlepaddle装了ocr-vl的容器里运行,再连另一个镜像里的vlm,不是你们这,就这么点儿活儿就这么费劲吗?
就用你们个vlm还得莫名奇妙的下载一堆layout模型,下载之后存放路径也不透明,真是一点儿不给内网用户活路呗??就全靠猜,去一个个翻你们的文档?
你找到在哪里配置模型下载路径,和模型搜索路径的吗??我怎么找都找不到