RepoBaidu (ERNIE)Baidu (ERNIE)published Jul 5, 2023seen 5d

PaddlePaddle/PaddleMIX

Python

Open original ↗

Captured source

source ↗
published Jul 5, 2023seen 5dcaptured 13hhttp 200method plain

PaddlePaddle/PaddleMIX

Description: Paddle Multimodal Integration and eXploration, supporting mainstream multi-modal tasks, including end-to-end large-scale multi-modal pretrain models and diffusion model toolbox. Equipped with high performance and flexibility.

Language: Python

License: Apache-2.0

Stars: 724

Forks: 225

Open issues: 153

Created: 2023-07-05T03:30:12Z

Pushed: 2026-03-06T05:56:34Z

Default branch: develop

Fork: no

Archived: no

README: 简体中文 | [English](README_EN.md)

💌目录

  • [💌目录](#目录)
  • [📰新闻](#新闻)
  • [📣最新进展](#最新进展)
  • [🌈简介](#简介)
  • [特色应用效果示例如下(点击标题可快速跳转在线体验):](#特色应用效果示例如下点击标题可快速跳转在线体验)
  • [✨主要特性](#主要特性)
  • [📱丰富的多模态模型库](#丰富的多模态模型库)
  • [🧩全流程开发体验](#全流程开发体验)
  • [💡高性能分布式训推能力](#高性能分布式训推能力)
  • [🔧特色模型与工具](#特色模型与工具)
  • [🔍安装](#安装)
  • [1. 克隆PaddleMIX仓库](#1-克隆paddlemix仓库)
  • [2. 创建虚拟环境](#2-创建虚拟环境)
  • [3. ‼️安装PaddlePaddle](#3-️安装paddlepaddle)
  • [方法 1: 一键安装(GPU/CPU推荐)](#方法-1-一键安装gpucpu推荐)
  • [方法 2: 手动安装](#方法-2-手动安装)
  • [4. ‼️安装依赖](#4-️安装依赖)
  • [方法 1: 一键安装(推荐)](#方法-1-一键安装推荐)
  • [方法 2: 手动安装](#方法-2-手动安装-1)
  • [5. ‼️验证安装](#5-️验证安装)
  • [🔥教程](#教程)
  • [📱模型库](#模型库)
  • [🏆特色模型|工具](#特色模型工具)
  • [💎PP-DocBee文档理解特色模型](#pp-docbee文档理解特色模型)
  • [💎PP-VCtrl视频生成控制模型](#pp-vctrl视频生成控制模型)
  • [💎多模态数据处理工具箱DataCopilot](#多模态数据处理工具箱datacopilot)
  • [🤔FAQ](#faq)
  • [❤️致谢](#️致谢)
  • [📝许可证书](#许可证书)
  • [📌社区交流](#社区交流)
  • [🎯引用](#引用)

📰新闻

🔥2025.04.21日FLUX多模态文生图大模型功能抢先体验

  • 🔥🔥多模态大模型PaddleMIX产业实战精品课第五弹:《FLUX多模态文生图大模型功能抢先体验》。本期课程将带你在PaddleMIX框架中快速体验FLUX系列模型的多模态文生图能力。深度解析模型实现细节与技术创新,带您实操多模态生成任务处理。4月21日正式开营,名额有限,先到先得:https://www.wjx.top/vm/QTuwoyG.aspx?udsid=997416

📣最新进展

🔥2025.07.14 发布[Fast-Diffusers](ppdiffusers/examples/Fast-Diffusers)扩散模型推理加速工具包

  • Training-Free:新增[T-gate](ppdiffusers/examples/Fast-Diffusers/Training-Free/tgate),[PAB](ppdiffusers/examples/Fast-Diffusers/Training-Free/pab),[TeaCache](ppdiffusers/examples/Fast-Diffusers/Training-Free/teacache),[TaylorSeer](ppdiffusers/examples/Fast-Diffusers/Training-Free/taylorseer),[BlockDance](ppdiffusers/examples/Fast-Diffusers/Training-Free/blockdance)等SOTA Training-Free算法。发布了自研算法[SortBlock](ppdiffusers/examples/Fast-Diffusers/Training-Free/sortblock),[TeaBlockCache](ppdiffusers/examples/Fast-Diffusers/Training-Free/teablockcache), [CG-Taylor](ppdiffusers/examples/Fast-Diffusers/Training-Free/CG-Taylor/)和[FirstBlockTaylor](ppdiffusers/examples/Fast-Diffusers/Training-Free/firstblock_taylorseer)算法,在保证生成图像质量的同时,实现2倍以上的端到端推理加速效果
  • 扩散模型时间步蒸馏:新增[PCM](ppdiffusers/examples/Fast-Diffusers/diffusion-distill/phased_consistency_distillation),[DMD2](ppdiffusers/examples/Fast-Diffusers/diffusion-distill//dmd2)等蒸馏算法,并提供了多种蒸馏loss供开发者灵活搭配。同时基于上述蒸馏算法,发布了基于FLUX-dev的4步蒸馏模型,配合飞桨深度学习编译器,推理时延降低至1.66秒。

🔥2025.05.09 发布PaddleMIX v3.0-beta

  • 多模态理解:新增Qwen2.5VL系列,DeepSeek-VL2等;发布自研[PP-DocBee](./paddlemix/examples/ppdocbee)文档理解多模态大模型,新增[Qwen2.5VL高性能推理部署](deploy/qwen2_5_vl),性能领先vllm 11.5%
  • 多模态生成:发布[PPDiffusers 0.29.1](./ppdiffusers/README.md)版本,发布自研可控视频模型[PP-VCtrl](./ppdiffusers/examples/ppvctrl/README_CN.md),新增对SD3 ControlNet和SD3.5的支持。

🎉 2025.01.08 发布自研[PP-VCtrl](./ppdiffusers/examples/ppvctrl/README_CN.md)视频生成控制模型

  • PP-VCtrl 是一个通用的视频生成控制模型,可广泛应用于人物动画、场景转换、视频编辑等视频生成场景。

🎉 2025.01.02 发布自研[PP-DocBee](./paddlemix/examples/ppdocbee)文档理解多模态大模型

  • PP-DocBee是端到端的文档图像理解大模型。在学术界及内部业务场景文档理解评测榜单上,PP-DocBee均达到同参数量级别模型的SOTA水平。

点击展开更多

🎉 2024.10.31 喜迎外部开发者的[创作教程页面](paddlemix_applications.md)更新

  • 🌟 自9月6日发起大模型套件精品项目征集活动以来,我们收到了30个优质开发者项目,其中25个精品项目已通过平台评估并成功加精。
  • 🙏 衷心感谢各位开发者基于套件的精彩创作!🚀 诚挚邀请您也来分享您的创意 - 欢迎将教程发布到公开网页或飞桨AI Studio社区!

🔥2024.10.11 发布PaddleMIX v2.1

  • 支持PaddleNLP 3.0 beta版本,抢先体验其最新功能。
  • 新增[Qwen2-VL](./paddlemix/examples/qwen2_vl/)、[InternVL2](./paddlemix/examples/internvl2/)、Stable Diffusion 3 (SD3)等前沿模型。
  • 发布自研多模数据能力标签模型[PP-InsCapTagger](./paddlemix/datacopilot/example/pp_inscaptagger/);可用于数据的分析和过滤,试验案例表明在保持模型效果的条件下可减少50%的数据量,大幅提高训练效率。
  • 多模态大模型InternVL2、LLaVA、SD3、SDXL适配昇腾910B,提供国产计算芯片上的训推能力。

2024.07.25 发布PaddleMIX v2.0

  • 多模态理解:新增LLaVA系列,Qwen-VL等;新增Auto模块统一SFT训练流程;新增mixtoken训练策略,SFT吞吐量提升5.6倍。
  • 多模态生成:发布[PPDiffusers 0.24.1](./ppdiffusers/README.md)版本,支持视频生成能力,文生图模型新增LCM。新增飞桨版peft,accelerate后端。提供基于飞桨开发的ComfyUI插件。
  • 多模态数据处理工具箱[DataCopilot](./paddlemix/datacopilot/):支持自定义数据结构,数据转换,离线格式检查;支持基本的统计信息,数据可视化功能。

2023.10.7 发布 PaddleMIX v1.0

  • 新增图文预训练模型分布式训练能力,BLIP-2支持千亿规模训练
  • 新增跨模态应用流水线[AppFlow](./applications/README.md),一键支持自动标注,图像编辑,音生图等11种跨模态应用
  • [PPDiffusers](./ppdiffusers/README.md)发布 0.19.3 版本,新增SDXL及相关任务

---

🌈简介

PaddleMIX是基于飞桨的多模态大模型开发套件,聚合图像、文本、视频等多种模态,覆盖视觉语言预训练,微调,文生图,文生视频,多模态理解等丰富的多模态任务。它提供开箱即用的开发体验,同时支持灵活定制,满足不同需求,助力探索通用人工智能。

特色应用效果示例如下(点击标题可快速跳转在线体验):

| **ComfyUI创作工作流** | **R1+MIX多模态应用** | **多模态文档理解** | | :--------------------------------------------------------------------------------------------------------------------------------------------: | :----------------------------------------------------------------------------------------------------------------------------------------------: | :--------------------------------------------------------------------------------------------------------------------------------------: | | | | | | **二次元文生图** | **AI绘画|50+Lora风格叠加** | **视频编辑** | | | | |

其他特色应用示例,请查看[PaddleMIX精品项目](./paddlemix_applications.md)

-----

✨主要特性

📱丰富的多模态模型库

PaddleMIX支持大量最新主流的算法基准以及预训练模型,覆盖图文预训练,文生图,跨模态视觉任务,实现图像编辑、图像描述、数据标注等多样功能。传送门:[📱模型库](#模型库)

🧩全流程开发体验

PaddleMIX 向开发者提供全流程多模态大模型开发体验,包括数据处理,模型开发,预训练,精调,推理部署。并针对不同任务提供了推荐模型最佳实践。传送门:[📱最佳实践](#最佳实践)

💡高性能分布式训推能力

PaddleMIX提供高性能分布式训练与推理能力,基于飞桨4D混合并行策略、算子融合等优化策略,显著提升多模态大模型训练推理性能。传送门:[📱benchmark](#benchmark)

🔧特色模型与工具

PaddleMIX发布文档理解模型PP-DocBee,统一可控视频生成模型PP-VCtrl,特色数据处理工具箱DataCopilot,加速多模态大模型产业应用落地,传送门:[🏆特色模型工具](#特色模型工具)

🔍安装

1. 克隆PaddleMIX仓库

git clone https://github.com/PaddlePaddle/PaddleMIX
cd PaddleMIX

2. 创建虚拟环境

conda create -n paddlemix python=3.10 -y
conda activate paddlemix

Excerpt shown — open the source for the full document.