What does this release signal mean?

Baidu (ERNIE) Release: PaddlePaddle/PaddleFleetX v2.4.0

Captured source

source ↗

GitHub/github.com/PaddlePaddle/PaddleFleetX

PaddlePaddle/PaddleFleetX v2.4.0

Source ↗

published Dec 2, 2022seen 5dcaptured 13hhttp 200method plain

PaddleFleetX v2.4.0

Repository: PaddlePaddle/PaddleFleetX

Tag: v2.4.0

Published: 2022-12-02T04:22:59Z

Prerelease: no

Release notes: 一、环境部署

1. 为提升开发部署用户体验，全面适配了 PaddlePaddle 2.4，并发布了预安装镜像。

二、动态图训练

1. 支持gradient accumulation。（#824） 2. 修复dataloader int32 overflow的问题。（#818） 3. 开源了 MoCo V1、V2 在 Imagenet1K 上的预训练和 linprob 微调代码以及Checkpoint，并达对齐精度

三、自动并行

1. 在 345M、1.3B、6.7B 规模上支持 GPT 预训练模型的自动并行分布式训练，还支持了自动混合精度、分组切片、重计算与梯度累计优化策略。（#757 #801） 2. 为了支持大模型分布式推理，实现了 GPT 生成模型的自适应转换，包括组网重切分与参数自动转换功能。（#815）

四、推理部署

1. 优化GPT生成模型组网逻辑，添加自定义融合算子，减少动转静产生的同步操作，提升推理性能（#946）。

五、性能

1. 在345M、1.3B、6.7B与175B模型上支持TensorFuse功能、适配使用FusedLinear、支持selective recompute、支持fp16 embedding。（#620，#626，#634，#635，#752） 2. 在6.7B模型上适配sharding stage 2 reduce overlap、适配sharding stage 2 broadcast overlap、适配sharding stage 2多流broadcast。（#799，#812，#833） 3. 在175B模型上适配interleave pipeline、适配pipeline recompute interval、支持pipeline非均匀且分的组网方式、支持sequence parallel策略。（#860，#881，#884，#734，#746，#819，#846，#854，#861） 4. 相对于同等模型规模的Megatron（DeepSpeed），345M GPT 八卡性能超越竞品 14.2%、1.3B GPT 八卡性能超越竞品5.6%、6.7B GPT 16卡性能超越竞品11.7%、175B GPT 128卡性能超越竞品 0.4%。

六、调试工具

1. 为了覆盖包括分布式等多种调试需求，提升二次开发体验，提供了混合并行的多项指标 Profiler 能力，同时支持了 VisualDL可视化工具。（#619，#667，#672）

七、模型

1. 开发图文生成模型Imagen，支持 397M、2B 参数量 Imagen 生成模型、600M 参数量 Imagen 256x256分辨率超分模型、400M 参数量 Imagen 1024x1024分辨率超分模型组网、训练流程（#768，#747，#706） 2. 支持 DP-DAP-BP 3维混合并行以及DistEmbeddingsAndEvoformer。