PaddlePaddle/PaddleX
Python
Captured source
source ↗PaddlePaddle/PaddleX
Description: All-in-One Development Tool based on PaddlePaddle
Language: Python
License: Apache-2.0
Stars: 6156
Forks: 1198
Open issues: 728
Created: 2020-03-11T07:58:44Z
Pushed: 2026-06-09T15:18:57Z
Default branch: release/3.6
Fork: no
Archived: no
README:
🌟 特性 | 🌐 在线体验|🚀 快速开始 | 📖 文档 | 🔥能力支持 | 📋 模型列表
🇨🇳 简体中文 | 🇬🇧 English
🔍 简介
PaddleX 3.0 是基于飞桨框架构建的低代码开发工具,它集成了众多开箱即用的预训练模型,可以实现模型从训练到推理的全流程开发,支持国内外多款主流硬件,助力AI 开发者进行产业实践。
🌟 特性
🎨 模型丰富一键调用:将覆盖文本图像智能分析、OCR、目标检测、时序预测等多个关键领域的 200+ 飞桨模型整合为 33 条模型产线,通过极简的 Python API 一键调用,快速体验模型效果。同时支持 39 种单功能模块,方便开发者进行模型组合使用。
🚀 提高效率降低门槛:实现基于统一命令和图形界面的模型全流程开发,打造大小模型结合、大模型半监督学习和多模型融合的**8 条特色模型产线**,大幅度降低迭代模型的成本。
🌐 多种场景灵活部署:支持高性能推理、服务化部署和端侧部署等多种部署方式,确保不同应用场景下模型的高效运行和快速响应。
🔧 主流硬件高效支持:支持英伟达 GPU、昆仑芯、昇腾和寒武纪等多种主流硬件的无缝切换,确保高效运行。
📣 近期更新
🔥🔥 2025.10.16,发布 PaddleX v3.3.0,新增能力如下:
- 支持PaddleOCR-VL、PP-OCRv5多语种模型的推理部署能力。
🔥🔥 2025.8.20,发布 PaddleX v3.2.0,新增能力如下:
- 部署能力升级:
- 全面支持飞桨框架 3.1.0 和 3.1.1 版本。
- 高性能推理支持 CUDA 12,可使用 Paddle Inference、ONNX Runtime 后端推理。
- 高稳定性服务化部署方案全面开源,支持用户根据需求对 Docker 镜像和 SDK 进行定制化修改。
- 高稳定性服务化部署方案支持通过手动构造HTTP请求的方式调用,该方式允许客户端代码使用任意编程语言编写。
- 重要模型新增:
- 新增 PP-OCRv5 英文、泰文、希腊文识别模型的训练、推理、部署。其中 PP-OCRv5 英文模型较 PP-OCRv5 主模型在英文场景提升 11%,泰文识别模型精度 82.68%,希腊文识别模型精度 89.28%。
- Benchmark升级:
- 全部产线支持产线细粒度 benchmark,能够测量产线端到端推理时间以及逐层、逐模块的耗时数据,可用于辅助产线性能分析。
- 在文档中补充各产线常用配置在主流硬件上的关键指标,包括推理耗时和内存占用等,为用户部署提供参考。
- Bug修复:
- 修复了当输入图片文件格式不合法时,导致递归调用的问题。
- 修复了 PP-DocTranslation 和 PP-StructureV3 产线配置文件中图表识别、印章识别、文档预处理参数设置不生效的问题。
- 修复 PDF 文件在推理结束后未正确关闭的问题。
- 其他升级:
- 支持 Windows 用户使用英伟达 50 系显卡,可根据安装文档安装对应版本的 paddle 框架。
- PP-OCR 系列模型支持返回单文字坐标。
- 将
PaddlePredictorOption中的model_name参数移至PaddleInfer中,改善了用户易用性。 - 重构了官方模型下载逻辑,新增了 AIStudio、ModelScope 等多模型托管平台。
🔥🔥 2025.6.28,发布 PaddleX v3.1.0,新增能力如下:
- 重要模型:
- 新增PP-OCRv5多语种文本识别模型,支持法语、西班牙语、葡萄牙语、俄语、韩语等37种语言的文字识别模型的训推流程。平均精度涨幅超30%。
- 升级PP-StructureV3中的PP-Chart2Table模型,图表转表能力进一步升级,在内部自建测评集合上指标(RMS-F1)提升9.36个百分点(71.24% -> 80.60%)
- 重要产线:
- 新增基于PP-StructureV3和ERNIE 4.5 Turbo的文档翻译产线PP-DocTranslation,支持翻译Markdown文档、各种复杂版式的PDF文档和文档图像,结果保存为Markdown格式文档。
🔥🔥 2025.5.20,发布 PaddleX v3.0.0,相比PaddleX v2.x,核心升级如下:
丰富的模型库:
- 模型丰富: PaddleX3.0 包含270+模型,涵盖了图像(视频)分类/检测/分割、OCR、语音识别、时序等多种场景。
- 方案成熟: PaddleX3.0 基于丰富的模型库,提供了通用文档解析、关键信息抽取、文档理解、表格识别、通用图像识别等多种重要且成熟的AI解决方案。
统一推理接口,重构部署能力:
- 推理接口标准化,降低不同种类模型带来的API接口差异,减少用户学习成本,提升企业落地效率。
- 提供多模型组合能力,复杂任务可以通过不同的模型方便地进行组合使用,实现1+1>2 的能力。
- 部署能力升级,多种模型部署可以使用统一的命令管理,支持多卡推理,支持多卡多实例服务化部署。
全面适配飞桨框架3.0:
- 全面适配飞桨框架3.0新特性: 支持编译器训练,训练命令通过追加
-o Global.dy2st=True即可开启编译器训练,在 GPU 上,多数模型训练速度可提升 10% 以上,少部分模型训练速度可以提升 30% 以上。推理方面,模型整体适配飞桨 3.0 中间表示技术(PIR),拥有更加灵活的扩展能力和兼容性,静态图模型存储文件名由xxx.pdmodel改为xxx.json。 - 全面支持 ONNX 格式模型: 支持通过Paddle2ONNX插件转换模型格式。
重磅能力支撑:
- 支撑PP-OCRv5的串联逻辑和多硬件推理、多后端推理、服务化部署能力。
- 支撑PP-StructureV3的复杂模型串联和并联的逻辑,首次串联并联共15个模型,实现多模型协同的复杂pipeline。精度在 OmniDocBench 榜单上达到 SOTA 水平。
- 支撑PP-ChatOCRv4的大模型串联逻辑,结合文心大模型4.5Turbo,结合新增的PP-DocBee2,关键信息抽取精度相比上一代提升15.7个百分点。
多硬件支持:
- 整体支持英伟达、英特尔、苹果M系列、昆仑芯、昇腾、寒武纪、海光、燧原等芯片的训练和推理。
- 在昇腾上,全面适配的模型达到200个, 支持OM高性能推理的模型达到21个。此外支持PP-OCRv5、PP-StructureV3等重要模型方案。
- 在昆仑芯上支持重要分类、检测、OCR类模型(含PP-OCRv5)。
🔠 模型产线说明
PaddleX 致力于实现产线级别的模型训练、推理与部署。模型产线是指一系列预定义好的、针对特定AI任务的开发流程,其中包含能够独立完成某类任务的单模型(单功能模块)组合。
📊 能力支持
PaddleX的各个产线均支持本地快速推理,部分模型支持在AI Studio星河社区上进行在线体验,您可以快速体验各个产线的预训练模型效果,如果您对产线的预训练模型效果满意,可以直接对产线进行高性能推理/服务化部署/端侧部署,如果不满意,您也可以使用产线的二次开发能力,提升效果。完整的产线开发流程请参考PaddleX产线使用概览或各产线使用[教程](#-文档)。
此外,PaddleX在AI Studio星河社区为开发者提供了基于云端图形化开发界面的全流程开发工具, 点击【创建产线】,选择对应的任务场景和模型产线,就可以开启全流程开发。详细请参考教程《零门槛开发产业级AI模型》
模型产线 在线体验 快速推理 高性能推理 服务化部署 端侧部署 二次开发 星河零代码产线
通用OCR 链接 ✅ ✅ ✅ ✅ ✅ ✅
文档场景信息抽取v3 链接 ✅ ✅ ✅ 🚧 ✅ ✅
文档场景信息抽取v4 链接 ✅ ✅ ✅ 🚧 ✅ ✅
通用表格识别 链接 ✅ ✅ ✅ 🚧 ✅ ✅
通用目标检测 链接 ✅ ✅ ✅ ✅ ✅ ✅
通用实例分割 链接 ✅ ✅ ✅ 🚧 ✅ ✅
通用图像分类 链接 ✅ ✅ ✅ ✅ ✅ ✅
通用语义分割 链接 ✅ ✅ ✅ ✅ ✅ ✅
时序预测 链接 ✅ ✅ ✅ 🚧 ✅ ✅
时序异常检测 链接 ✅ ✅ ✅ 🚧 ✅ ✅
时序分类 链接 ✅ ✅ ✅ 🚧 ✅ ✅
小目标检测 链接 ✅ ✅ ✅ 🚧 ✅ ✅
图像多标签分类 链接 ✅ ✅ ✅ 🚧 ✅ ✅
公式识别 链接 ✅ ✅ ✅ 🚧 ✅ ✅
印章文本识别 链接 ✅ ✅ ✅ 🚧 ✅ ✅
行人属性识别 链接 ✅ ✅ ✅ 🚧 ✅ ✅
车辆属性识别 链接 ✅ ✅ ✅ 🚧 ✅ ✅
图像异常检测 🚧 ✅ ✅ ✅ 🚧 ✅ 🚧
人体关键点检测 🚧 ✅ ✅ ✅ 🚧 ✅ 🚧
开放词汇检测 🚧 ✅ ✅ ✅ 🚧 🚧 🚧
开放词汇分割 🚧 ✅ ✅ ✅ 🚧 🚧 🚧
旋转目标检测 🚧 ✅ ✅ ✅ 🚧 ✅ 🚧
3D多模态融合检测 🚧 ✅ ✅ ✅ 🚧 ✅ 🚧
通用表格识别v2 链接 ✅ ✅ ✅ 🚧 ✅ ✅
通用版面解析 🚧 ✅ ✅ ✅ 🚧 ✅ 🚧
通用版面解析v3 链接 ✅ ✅ ✅ 🚧 🚧 ✅
文档图像预处理 🚧 ✅ ✅ ✅ 🚧 ✅ 🚧
通用图像识别 🚧 ✅ ✅ ✅ 🚧 ✅ 🚧
人脸识别 🚧 ✅ ✅ ✅ 🚧 ✅ 🚧
多语种语音识别 🚧 ✅ 🚧 ✅ 🚧 🚧 🚧
通用视频分类 🚧 ✅ ✅ ✅ 🚧 ✅ 🚧
通用视频检测 🚧 ✅ ✅ ✅ 🚧 ✅ 🚧
文档理解 🚧 ✅ 🚧 ✅ 🚧 🚧 🚧
> ❗注:以上功能均基于 GPU/CPU 实现。PaddleX 还可在昆仑芯、昇腾、寒武纪和海光等主流硬件上进行快速推理和二次开发。下表详细列出了模型产线的支持情况,具体支持的模型列表请参阅模型列表(昆仑芯XPU)/模型列表(昇腾NPU)/模型列表(寒武纪MLU)/模型列表(海光DCU)。我们正在适配更多的模型,并在主流硬件上推动高性能和服务化部署的实施。
🔥🔥 国产化硬件能力支持
模型产线 昇腾 910B 昆仑芯 R200/R300 寒武纪 MLU370X8 海光 Z100/K100AI
通用OCR ✅ ✅ ✅ ✅
通用表格识别 ✅ 🚧 🚧 🚧
通用目标检测 ✅ ✅ ✅ ✅
通用实例分割 ✅ 🚧 ✅ 🚧
通用图像分类 ✅ ✅ ✅ ✅
通用语义分割 ✅ ✅ ✅ ✅
时序预测 ✅ ✅ ✅ ✅
时序异常检测 ✅ 🚧 🚧 🚧
时序分类 ✅ 🚧 🚧 🚧
图像多标签分类 ✅ 🚧 🚧 ✅
行人属性识别 ✅ 🚧 🚧 🚧
车辆属性识别 ✅ 🚧 🚧 🚧
通用图像识别 ✅ 🚧 ✅ ✅
印章文本识别 ✅ 🚧 🚧 🚧
图像异常检测 ✅ ✅ ✅ ✅
人脸识别 ✅ ✅ ✅ ✅
⏭️ 快速开始
🛠️ 安装
> ❗在安装 PaddleX 之前,请确保您已具备基本的 Python 运行环境(注:目前支持 Python 3.8 至 Python 3.13)。PaddleX 3.0.x 版本依赖的 PaddlePaddle 版本为 3.0.0 及以上版本,请在使用前务必保证版本的对应关系。
- 安装 PaddlePaddle
# CPU 版本 python -m pip install…
Excerpt shown — open the source for the full document.