What does this release signal mean?

Baidu (ERNIE) published PaddlePaddle/PaddleNLP v3.0.0-beta4 (PaddlePaddle/PaddleNLP). This release signal is evidence of what shipped, changed, or was packaged for users. High-signal details: Beta release of notable NLP library, routine update · v3.0.0-beta4 Repository: PaddlePaddle/PaddleNLP Tag: v3.0.0-beta4 Published: 2025-03-12T08:19:35Z Prerelease: yes Release notes: 本次版本中，我们全面集成了 DeepSeek.... onlylabs links this event to 1 captured evidence page and 6 related release signals.

Baidu (ERNIE) Release: PaddlePaddle/PaddleNLP v3.0.0-beta4

Captured source

source ↗

GitHub/github.com/PaddlePaddle/PaddleNLP

PaddlePaddle/PaddleNLP v3.0.0-beta4

Source ↗

published Mar 12, 2025seen 5dcaptured 10hhttp 200method plain

v3.0.0-beta4

Repository: PaddlePaddle/PaddleNLP

Tag: v3.0.0-beta4

Published: 2025-03-12T08:19:35Z

Prerelease: yes

Release notes: 本次版本中，我们全面集成了 DeepSeek R1类的思考模型。推理团队深度优化了模型推理，速度业界领先。此外，我们还发布了自研PP-UIE信息抽取模型。本次重点更新如下。

重点更新：

#### 模型新增
DeepSeek V3/R1, R1-distill, QwQ-32B 热门思考模型，全面支持。用户可以点击官方模型文档列表查看、下载所有模型。
飞桨自研发布下一代通用信息抽取工具 PP-UIE 全新发布。支持8K长度信息抽取。使用文档。
#### 推理部署
全面支持DeepSeek V3/R1满血版FP8、INT8、4比特量化推理，MTP投机解码。
FP8推理，单机输出超1000 tokens/s；4比特单机部署，输出超2100 tokens/s！
首次协同推理团队，发布统一推理部署镜像，热门模型一键部署。推理部署使用文档全面更新，体验全面提升！见文档。
#### 模型训练：
新增大模型 Embedding 训练，支持INF-CL超大batch size训练。
新增MergeKit模型融合工具，缓解对齐代价。见文档。
低资源训练全面优化。16G小显存可以流畅训练。
#### 其他重点特性：
文档页面，新增模型列表展示。用户可查看、下载对应模型文件。见文档。
训练新增 adam-mini 优化器。AdamW优化器支持 BF16 动量。

下面是一些对应的更新细节：

1. 模型、框架组件更新

模型新增
模型新增列表：
paddlenlp/PP-UIE-0.5B, paddlenlp/PP-UIE-1.5B, paddlenlp/PP-UIE-7B, paddlenlp/PP-UIE-14B
deepseek-ai/DeepSeek-V3, deepseek-ai/DeepSeek-V3-Base，deepseek-ai/DeepSeek-R1, deepseek-ai/DeepSeek-R1-Zero,
deepseek-ai/DeepSeek-R1-Distill-Llama-70B, deepseek-ai/DeepSeek-R1-Distill-Llama-8B, deepseek-ai/DeepSeek-R1-Distill-Qwen-14B, deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B, deepseek-ai/DeepSeek-R1-Distill-Qwen-32B, deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
Qwen/Qwen2.5-7B-Instruct-1M，Qwen/Qwen2.5-14B-Instruct-1M, Qwen/QwQ-32B, Qwen/QwQ-32B-Preview
PR #9738: Deepseek V3 模型新增。PR #9876: 增加 MTP 支持。PR #9797:修复 TP问题。 PR #9643: Deepseek llama3.3 新增模型说明（@DrownFish19）
PR #9906: Deepseek V3 支持动态图直接加载 Float8 参数并进行推理 (@ZHUI)
PR #9845: 新增PP-UIE系列模型 @Fantasy-02 i PR #9911 & PR #9913: PP-UIE 相关文档更新（@DrownFish19）
Tokenizer 改进
PR #9548、PR #9577、PR #9594: “Hackathon No.43” 系列，完善 TokenizerFast 功能支持（@yinfan98）
PR #9745: 修复 AutoTokenizer 问题（@DrownFish19）PR #9837: 保存额外的 special tokens（@DesmonDay）
Unified Checkpoint 相关:
PR #9540: 修复加载master weight PR #9523: 修复缺失key问题。
PR #9669: 统一检查点的 Bug 修复 PR #9935: 针对忽略 merge optimizer 时直接加载参数的问题进行修复
PR #9741 & PR #9821: 修复专家并行支持问题
MergeKit 功能增强与优化
新增功能与优化
PR #9561: 新增 mergekit_with_sparsify 功能，支持稀疏化合并（@Mangodadada）。
PR #9702: 优化 MergeKit 的 GPU 支持，提升处理效率（@Mangodadada）。
PR #9811: 添加 LoRA（低秩适配器）合并功能，扩展模型融合能力（@lugimzzz）。
工具更新与维护
PR #9885: 对 MergeKit 工具进行代码更新与维护，优化整体逻辑。
日志与调试支持
PR #9948: 添加日志记录功能，增强调试与过程追踪能力（@lugimzzz）。
低资源特性优化
PR #9804: 添加 use_fused_linear_cross_entropy 支持，减小显存。加入 pre_divided_factor 避免FP16溢出。
文档更新、其他：
PR #9634: unified_checkpoint 文档更新
PR #9734: 自定义设备代码重构（@ZHUI）
PR #9715: 增加 offload_recompute_inputs（@will-jl944）
PR #9800: 增加训练 token 计数功能（@lugimzzz）

2. LLM 训练更新

通用训练
PR #9204: 更新 chatglmv2 的 tensor/pipeline 并行（@DrownFish19）
PR #9827: 为 Qwen2Moe 和 Deepseek 增加 pipeline 与 flashmask 支持（@DrownFish19）
Embedding 训练
PR #9508: Embedding trainer 新增（@DesmonDay）PR #9673: 增加 INF-CL 超大batch训练支持（@jie-z-0607）
PR #9656: Trainer 中修复加载 rng 状态问题（@DesmonDay）
PR #9721: 修复 embedding 随机性问题（@DesmonDay）
DPO训练
PR #9543: LLM 模块中 dpo 对 qwen2 的 flashmask 支持（@wtmlon）
PR #9620: 更新 dpo criterion（@lugimzzz）
PR #9695: 支持 qwen 与 llama 的 dpo pp（@lugimzzz）
新功能和特性
PR #9542: 增加 adam-mini 优化器支持（@lugimzzz）
PR #9732: 支持BF16动量adamw 训练 (@lugimzzz)
PR #9830: 修复非 flash 模式下 checkpoint 保存的问题（@SylarTiaNII）
PR #9705: Cherry-Pick：在 optimizer step 前校验 loss（@SylarTiaNII）
PR #9704: Cherry-Pick：为 LLM 训练增加异步 metrics dumper（@SylarTiaNII）
训练文档及问题修复
PR #9689: 增加 KTO 功能（@lugimzzz）
PR #9655: 更新 peft 文档（@lugimzzz）
PR #9659: 修复 lora 相关问题（@lugimzzz）

3. Inference 更新

Predictor & Flask 更新
PR #9831: 修复 multibatch 推理问题（@DrownFish19）
PR #9841: 修复 position_ids 相关问题（@DrownFish19）
PR #9864: 更新 Deepseek 推理（@DrownFish19）
PR #9828: Flask 服务使 Inference 兼容 OpenAI API（@ZHUI）
MTP功能优化
PR #9856: Inference 中支持 mtp 与 Deepseek-v3（@freeliuzc）
PR #9894: 修复 Deepseek_v3 在多 GPU 模式下的 mtp 问题（@freeliuzc）
PR #9936: 增加 mtp serving 支持（@freeliuzc）
部署优化
PR #9872: 支持多机部署 LLM（@ltd0924）
PR #9791: 合并 fastdeploy 部分代码（@kevincheng2）
Kernel优化
PR #9707: 优化 gemm_dequant OP，利用 CUDA 核进行 int8_sq 运算（@zhink）
文档更新、测试
PR #9613: Inference 模块支持 llama3.2 及文档更新（@yuanlehome）
PR #9921: 修复 llama 的 block_size 设置（@zhaohaixu）
PR #9711: 为 LLM predictor 增加 common models 和参数单元测试（@aooxin）

4. AutoParallel / 分布式训练更新

自动并行
PR #9578: 增加 llama2-7b-cinn 的测试（@zhangbo9674）
基础配置与 CI 集成
PR #9538: 增加 qwen model_auto 与 CI（@blacksheep-Aristotle）
PR #9541: 增加 llama3.1 自动并行配置（@zhiqiu）
PR #9551: 为 gpt 和 baichuan 自动 CI 加入支持（@blacksheep-Aristotle）
PR #9591: 增加 gpt、baichuan 及 qwen 的 ce 支持（@blacksheep-Aristotle）
PR #9412: 增加 single_model 网络和使用 intermediate API（@blacksheep-Aristotle）
PR #9943: 通过 training_args 控制 split input（@blacksheep-Aristotle）
测试、验证与功能开关
PR #9621: 增加 PIR recompute 测试（@waliwali777）
PR #9647: 修改 loss_base 以支持 dropout 后 SPMD（@deepllz）
PR #9714: 增加阶段 1 tensor fusion 相关开关（@AndSonder）
PR #9672: 修复 recompute 测试在 to_static=1 下运行问题（@waliwali777）
PR #9688: 自动并行下合并 ckpt 供推理使用（@xuxinyi389）
PR #9750 & PR #9753: 修复 ernine auto trainer 相关 CI 错误（@blacksheep-Aristotle）
PR #9749: 为 benchmark 开启 tensor fusion（@AndSonder）
PR #9810: 增加 sharding tensor fusion save/load 开关（@AndSonder）
PR #9862: 支持 deepseekv2 下的 DP/MP（@xuxinyi389）
PR #9823: 增加 support ppo ckpt 功能（@xuxinyi389）

5. CI、文档、Benchmark 及测试脚本更新

CI 脚本及警告过滤
PR #9547: 更新 CI 脚本（@Liujie0926）
PR #9612: CI 中过滤 paddle.to_tensor 警告（@DrownFish19）
PR #9626: 更新 a100 loss_base 配置（@Liujie0926）
PR #9889: CI 脚本更新（@Liujie0926）
PR #9524: LLM benchmark 中新增 qwen2.5-7b（@Liujie0926）
PR #9662 & PR #9722: 更新 LLM_benchmark 脚本（@Liujie0926）
文档与说明改进
PR #9585: 修复文档中失效链接（@DrownFish19）
PR #9668: 更新 README.md（@ZHUI）
PR #9785: 更新面向文档的 README（@ZHUI）
PR #9746: 文档修复（@DrownFish19）
PR #9725: 调整 benchmark 环境变量和模型配置（@XieYunshen）
PR #9877: 修正 inference 和 servering 的文档（@ZHUI）
PR #9834: 发布 DeepSeek 新闻及说明（@DrownFish19）
PR #9922: 更正精调文档错误（@sijunhe）
Benchmark 配置与测试
PR #9651: 修复 benchmark 多机任务异常退出的问题（@XieYunshen）
PR #9891: 更新 gpt-13b 在 dygraph 模式下的最佳配置（@liym27）

6. NPU/XPU 及硬件相关更新

NPU 适配与修复
PR #9499: 适配 NPU 用于 FusedHeadAndCrossEntropy（@tianhaodongbd）
PR…

Excerpt shown — open the source for the full document.

Notability

notability 5.0/10

Beta release of notable NLP library, routine update