PaddlePaddle/PaddleMIX
Python
Captured source
source ↗PaddlePaddle/PaddleMIX
Description: Paddle Multimodal Integration and eXploration, supporting mainstream multi-modal tasks, including end-to-end large-scale multi-modal pretrain models and diffusion model toolbox. Equipped with high performance and flexibility.
Language: Python
License: Apache-2.0
Stars: 724
Forks: 225
Open issues: 153
Created: 2023-07-05T03:30:12Z
Pushed: 2026-03-06T05:56:34Z
Default branch: develop
Fork: no
Archived: no
README: 简体中文 | [English](README_EN.md)
💌目录
- [💌目录](#目录)
- [📰新闻](#新闻)
- [📣最新进展](#最新进展)
- [🌈简介](#简介)
- [特色应用效果示例如下(点击标题可快速跳转在线体验):](#特色应用效果示例如下点击标题可快速跳转在线体验)
- [✨主要特性](#主要特性)
- [📱丰富的多模态模型库](#丰富的多模态模型库)
- [🧩全流程开发体验](#全流程开发体验)
- [💡高性能分布式训推能力](#高性能分布式训推能力)
- [🔧特色模型与工具](#特色模型与工具)
- [🔍安装](#安装)
- [1. 克隆PaddleMIX仓库](#1-克隆paddlemix仓库)
- [2. 创建虚拟环境](#2-创建虚拟环境)
- [3. ‼️安装PaddlePaddle](#3-️安装paddlepaddle)
- [方法 1: 一键安装(GPU/CPU推荐)](#方法-1-一键安装gpucpu推荐)
- [方法 2: 手动安装](#方法-2-手动安装)
- [4. ‼️安装依赖](#4-️安装依赖)
- [方法 1: 一键安装(推荐)](#方法-1-一键安装推荐)
- [方法 2: 手动安装](#方法-2-手动安装-1)
- [5. ‼️验证安装](#5-️验证安装)
- [🔥教程](#教程)
- [📱模型库](#模型库)
- [🏆特色模型|工具](#特色模型工具)
- [💎PP-DocBee文档理解特色模型](#pp-docbee文档理解特色模型)
- [💎PP-VCtrl视频生成控制模型](#pp-vctrl视频生成控制模型)
- [💎多模态数据处理工具箱DataCopilot](#多模态数据处理工具箱datacopilot)
- [🤔FAQ](#faq)
- [❤️致谢](#️致谢)
- [📝许可证书](#许可证书)
- [📌社区交流](#社区交流)
- [🎯引用](#引用)
📰新闻
🔥2025.04.21日FLUX多模态文生图大模型功能抢先体验
- 🔥🔥多模态大模型PaddleMIX产业实战精品课第五弹:《FLUX多模态文生图大模型功能抢先体验》。本期课程将带你在PaddleMIX框架中快速体验FLUX系列模型的多模态文生图能力。深度解析模型实现细节与技术创新,带您实操多模态生成任务处理。4月21日正式开营,名额有限,先到先得:https://www.wjx.top/vm/QTuwoyG.aspx?udsid=997416
📣最新进展
🔥2025.07.14 发布[Fast-Diffusers](ppdiffusers/examples/Fast-Diffusers)扩散模型推理加速工具包
- Training-Free:新增[T-gate](ppdiffusers/examples/Fast-Diffusers/Training-Free/tgate),[PAB](ppdiffusers/examples/Fast-Diffusers/Training-Free/pab),[TeaCache](ppdiffusers/examples/Fast-Diffusers/Training-Free/teacache),[TaylorSeer](ppdiffusers/examples/Fast-Diffusers/Training-Free/taylorseer),[BlockDance](ppdiffusers/examples/Fast-Diffusers/Training-Free/blockdance)等SOTA Training-Free算法。发布了自研算法[SortBlock](ppdiffusers/examples/Fast-Diffusers/Training-Free/sortblock),[TeaBlockCache](ppdiffusers/examples/Fast-Diffusers/Training-Free/teablockcache), [CG-Taylor](ppdiffusers/examples/Fast-Diffusers/Training-Free/CG-Taylor/)和[FirstBlockTaylor](ppdiffusers/examples/Fast-Diffusers/Training-Free/firstblock_taylorseer)算法,在保证生成图像质量的同时,实现2倍以上的端到端推理加速效果
- 扩散模型时间步蒸馏:新增[PCM](ppdiffusers/examples/Fast-Diffusers/diffusion-distill/phased_consistency_distillation),[DMD2](ppdiffusers/examples/Fast-Diffusers/diffusion-distill//dmd2)等蒸馏算法,并提供了多种蒸馏loss供开发者灵活搭配。同时基于上述蒸馏算法,发布了基于FLUX-dev的4步蒸馏模型,配合飞桨深度学习编译器,推理时延降低至1.66秒。
🔥2025.05.09 发布PaddleMIX v3.0-beta
- 多模态理解:新增Qwen2.5VL系列,DeepSeek-VL2等;发布自研[PP-DocBee](./paddlemix/examples/ppdocbee)文档理解多模态大模型,新增[Qwen2.5VL高性能推理部署](deploy/qwen2_5_vl),性能领先vllm 11.5%
- 多模态生成:发布[PPDiffusers 0.29.1](./ppdiffusers/README.md)版本,发布自研可控视频模型[PP-VCtrl](./ppdiffusers/examples/ppvctrl/README_CN.md),新增对SD3 ControlNet和SD3.5的支持。
🎉 2025.01.08 发布自研[PP-VCtrl](./ppdiffusers/examples/ppvctrl/README_CN.md)视频生成控制模型
- PP-VCtrl 是一个通用的视频生成控制模型,可广泛应用于人物动画、场景转换、视频编辑等视频生成场景。
🎉 2025.01.02 发布自研[PP-DocBee](./paddlemix/examples/ppdocbee)文档理解多模态大模型
- PP-DocBee是端到端的文档图像理解大模型。在学术界及内部业务场景文档理解评测榜单上,PP-DocBee均达到同参数量级别模型的SOTA水平。
点击展开更多
🎉 2024.10.31 喜迎外部开发者的[创作教程页面](paddlemix_applications.md)更新
- 🌟 自9月6日发起大模型套件精品项目征集活动以来,我们收到了30个优质开发者项目,其中25个精品项目已通过平台评估并成功加精。
- 🙏 衷心感谢各位开发者基于套件的精彩创作!🚀 诚挚邀请您也来分享您的创意 - 欢迎将教程发布到公开网页或飞桨AI Studio社区!
🔥2024.10.11 发布PaddleMIX v2.1
- 支持PaddleNLP 3.0 beta版本,抢先体验其最新功能。
- 新增[Qwen2-VL](./paddlemix/examples/qwen2_vl/)、[InternVL2](./paddlemix/examples/internvl2/)、Stable Diffusion 3 (SD3)等前沿模型。
- 发布自研多模数据能力标签模型[PP-InsCapTagger](./paddlemix/datacopilot/example/pp_inscaptagger/);可用于数据的分析和过滤,试验案例表明在保持模型效果的条件下可减少50%的数据量,大幅提高训练效率。
- 多模态大模型InternVL2、LLaVA、SD3、SDXL适配昇腾910B,提供国产计算芯片上的训推能力。
2024.07.25 发布PaddleMIX v2.0
- 多模态理解:新增LLaVA系列,Qwen-VL等;新增Auto模块统一SFT训练流程;新增mixtoken训练策略,SFT吞吐量提升5.6倍。
- 多模态生成:发布[PPDiffusers 0.24.1](./ppdiffusers/README.md)版本,支持视频生成能力,文生图模型新增LCM。新增飞桨版peft,accelerate后端。提供基于飞桨开发的ComfyUI插件。
- 多模态数据处理工具箱[DataCopilot](./paddlemix/datacopilot/):支持自定义数据结构,数据转换,离线格式检查;支持基本的统计信息,数据可视化功能。
2023.10.7 发布 PaddleMIX v1.0
- 新增图文预训练模型分布式训练能力,BLIP-2支持千亿规模训练
- 新增跨模态应用流水线[AppFlow](./applications/README.md),一键支持自动标注,图像编辑,音生图等11种跨模态应用
- [PPDiffusers](./ppdiffusers/README.md)发布 0.19.3 版本,新增SDXL及相关任务
---
🌈简介
PaddleMIX是基于飞桨的多模态大模型开发套件,聚合图像、文本、视频等多种模态,覆盖视觉语言预训练,微调,文生图,文生视频,多模态理解等丰富的多模态任务。它提供开箱即用的开发体验,同时支持灵活定制,满足不同需求,助力探索通用人工智能。
特色应用效果示例如下(点击标题可快速跳转在线体验):
| **ComfyUI创作工作流** | **R1+MIX多模态应用** | **多模态文档理解** | | :--------------------------------------------------------------------------------------------------------------------------------------------: | :----------------------------------------------------------------------------------------------------------------------------------------------: | :--------------------------------------------------------------------------------------------------------------------------------------: | | | | | | **二次元文生图** | **AI绘画|50+Lora风格叠加** | **视频编辑** | | | | |
其他特色应用示例,请查看[PaddleMIX精品项目](./paddlemix_applications.md)
-----
✨主要特性
📱丰富的多模态模型库
PaddleMIX支持大量最新主流的算法基准以及预训练模型,覆盖图文预训练,文生图,跨模态视觉任务,实现图像编辑、图像描述、数据标注等多样功能。传送门:[📱模型库](#模型库)
🧩全流程开发体验
PaddleMIX 向开发者提供全流程多模态大模型开发体验,包括数据处理,模型开发,预训练,精调,推理部署。并针对不同任务提供了推荐模型最佳实践。传送门:[📱最佳实践](#最佳实践)
💡高性能分布式训推能力
PaddleMIX提供高性能分布式训练与推理能力,基于飞桨4D混合并行策略、算子融合等优化策略,显著提升多模态大模型训练推理性能。传送门:[📱benchmark](#benchmark)
🔧特色模型与工具
PaddleMIX发布文档理解模型PP-DocBee,统一可控视频生成模型PP-VCtrl,特色数据处理工具箱DataCopilot,加速多模态大模型产业应用落地,传送门:[🏆特色模型工具](#特色模型工具)
🔍安装
1. 克隆PaddleMIX仓库
git clone https://github.com/PaddlePaddle/PaddleMIX cd PaddleMIX
2. 创建虚拟环境
conda create -n paddlemix python=3.10 -y conda activate paddlemix
Excerpt shown — open the source for the full document.