ReleaseBaidu (ERNIE)Baidu (ERNIE)published Sep 8, 2025seen 5d

PaddlePaddle/Paddle v3.2.0

PaddlePaddle/Paddle

Open original ↗

Captured source

source ↗
published Sep 8, 2025seen 5dcaptured 9hhttp 200method plain

PaddlePaddle 3.2.0 Release Note

Repository: PaddlePaddle/Paddle

Tag: v3.2.0

Published: 2025-09-08T13:41:01Z

Prerelease: no

Release notes:

重要更新

飞桨框架3.2版本在大模型训练推理性能、硬件适配、主流大模型及高性能加速库的支持上进一步提升。

  • 大模型训练方面,飞桨框架在计算、并行策略、容错能力三方面进行了升级:
  • 从基础计算性能层面,提出了存算重叠的稀疏掩码注意力计算FlashMask V3,极致优化Attention的计算效率,同时还实现了高效的FP8混合精度效果无损训练技术。
  • 在分布式并行策略层面,提出了动态自适应的显存卸载策略,实现存算最优均衡,再结合创新设计的显存友好的流水线并行调度,进一步降低显存开销。
  • 增强了框架原生的容错能力,实现了大规模集群训练容错系统,可在不影响训练效率的前提下在线监测静默数据损坏等难以察觉的故障,并实现了高可用的检查点容灾方法,降低中断恢复损失。
  • 在硬件适配方面,面向类CUDA芯片,全面升级插件式适配方案。
  • 在设备资源的管理调度和高性能集合通讯库方面,针对类CUDA芯片做了管理接口升级和通信能力的增强,特别增强了分布式通信能力,使XCCL对齐NCCL的各结构体和功能。
  • 新增了类CUDA算子注册机制。以沐曦适配为例,在复用GPU算子内核的基础上,仅需一行代码即可完成算子内核注册。经过统计计算,算子内核的复用率最高可以达到92%,可大幅降低硬件适配成本。
  • 使用体验方面,重点提升了兼容能力,包括开发接口兼容业界用法、safetensors模型格式兼容、和第三方高性能加速库的兼容。
  • 新增和修改开发接口兼容业界用法,新增系列API和别名,新增参数别名,新增专有和通用的参数。
  • 全面兼容 Safetensors 模型格式。新增 FlexCheckpoint 机制,支持跨分布式策略、跨模型结构间自动实现参数重切分,可显著降低权重转换成本,进而提升大模型端到端的训练与推理研发效率。
  • 系统性增强了接口兼容与算子注册能力,实现了高性能加速库一键导入,无需修改代码直接复用于飞桨的模型训练与推理加速过程中。

1. 用户体验

新特性

  • 新增API:paddle.msortpaddle.ravelpaddle.nn.functional.dropout1dpaddle.Tensor.type_aspaddle.Tensor.requires_gradpaddle.view_as_complexpaddle.view_as_realpaddle.nn.Parameterpaddle.broadcast_shapespaddle.rangepaddle.as_tensorpaddle.scatter_reduce/scatter_reduce_paddle.scatter_addpaddle.tensorpaddle.softmaxpaddle.Tensor.softmaxpaddle.rand_likepaddle.is_autocast_enabledpaddle.get_autocast_gpu_dtypepaddle.Tensor.repeatpaddle.permute#74421,#74439,#74444,#74454,#74459,#74491#74466,#74438,#74594,#74542,#74694,#74564,#74540,#74586,#74651,#74807,#74632,#74834,#74952,#74772,#74441,#74561,#74525
  • 新增paddle.compat.*一系列API,支持业界的通用用法,便于迁移代码,包括 paddle.compat.medianpaddle.compat.nanmedianpaddle.compat.softmaxpaddle.compat.sortpaddle.compat.splitpaddle.compat.min/maxpaddle.compat.Unfold#74865,#74874
  • 新增初始化一系列API,支持业界通用的参数初始化方式,包括paddle.nn.init.kaiming_uniform_paddle.nn.init.xavier_uniform_paddle.nn.init.uniform_paddle.nn.init.kaiming_normal_paddle.nn.init.xavier_normal_paddle.nn.init.normal_paddle.nn.init.calculate_gainpaddle.nn.init.constant_paddle.nn.init.dirac_paddle.nn.init.eye_paddle.nn.init.ones_paddle.nn.init.orthogonal_paddle.nn.init.trunc_normal_paddle.nn.init.zeros_#74478
  • API新增参数别名用法,例如既可以输入x,也可以输入input,用法更为灵活。包括 paddle.maximumpaddle.minimumpaddle.sqrtpaddle.topkpaddle.polarpaddle.stackpaddle.cospaddle.floorpaddle.logpaddle.powpaddle.rsqrtpaddle.signpaddle.sinpaddle.multiplypaddle.where等。#74683,#74795,#74887,#74592
  • paddle.Tensor新增支持多种初始化方式,支持灵活的创建Tensor。#74619,#75022,#75065
  • API新增一些专有参数,增强原有功能。包括 paddle.nn.functional.gelupaddle.divide/div/div_paddle.addpaddle.Tensor.copy_paddle.normpaddle.linalg.normpaddle.nn.functional.silupaddle.repeat_interleave#74485,#74562,#74420,#74768,#74855,#74903,#74788,#74631,#74947
  • API新增一些通用参数:outdevicedtyperequires_gradpin_memorybias,增强原有功能。包括…

Excerpt shown — open the source for the full document.

Notability

notability 6.0/10

Routine major version update of well-known framework