PaddlePaddle/PaddleNLP v3.0.0-beta4
PaddlePaddle/PaddleNLP
Captured source
source ↗published Mar 12, 2025seen 5dcaptured 10hhttp 200method plain
v3.0.0-beta4
Repository: PaddlePaddle/PaddleNLP
Tag: v3.0.0-beta4
Published: 2025-03-12T08:19:35Z
Prerelease: yes
Release notes: 本次版本中,我们全面集成了 DeepSeek R1类的思考模型。推理团队深度优化了模型推理,速度业界领先。此外,我们还发布了自研PP-UIE信息抽取模型。本次重点更新如下。
重点更新:
- #### 模型新增
- DeepSeek V3/R1, R1-distill, QwQ-32B 热门思考模型,全面支持。用户可以点击官方模型文档列表查看、下载所有模型。
- 飞桨自研发布下一代通用信息抽取工具 PP-UIE 全新发布。支持8K长度信息抽取。使用文档。
- #### 推理部署
- 全面支持DeepSeek V3/R1满血版FP8、INT8、4比特量化推理,MTP投机解码。
- FP8推理,单机输出超1000 tokens/s;4比特单机部署,输出超2100 tokens/s!
- 首次协同推理团队,发布统一推理部署镜像,热门模型一键部署。推理部署使用文档全面更新,体验全面提升!见文档。
- #### 模型训练:
- 新增大模型 Embedding 训练,支持INF-CL超大batch size训练。
- 新增MergeKit模型融合工具,缓解对齐代价。见文档。
- 低资源训练 全面优化。16G小显存可以流畅训练。
- #### 其他重点特性:
- 文档页面,新增模型列表展示。用户可查看、下载对应模型文件。见文档。
- 训练新增 adam-mini 优化器。AdamW优化器支持 BF16 动量。
下面是一些对应的更新细节:
1. 模型、框架组件更新
- 模型新增
- 模型新增列表:
- paddlenlp/PP-UIE-0.5B, paddlenlp/PP-UIE-1.5B, paddlenlp/PP-UIE-7B, paddlenlp/PP-UIE-14B
- deepseek-ai/DeepSeek-V3, deepseek-ai/DeepSeek-V3-Base,deepseek-ai/DeepSeek-R1, deepseek-ai/DeepSeek-R1-Zero,
- deepseek-ai/DeepSeek-R1-Distill-Llama-70B, deepseek-ai/DeepSeek-R1-Distill-Llama-8B, deepseek-ai/DeepSeek-R1-Distill-Qwen-14B, deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B, deepseek-ai/DeepSeek-R1-Distill-Qwen-32B, deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
- Qwen/Qwen2.5-7B-Instruct-1M,Qwen/Qwen2.5-14B-Instruct-1M, Qwen/QwQ-32B, Qwen/QwQ-32B-Preview
- PR #9738: Deepseek V3 模型新增。PR #9876: 增加 MTP 支持。PR #9797:修复 TP问题。 PR #9643: Deepseek llama3.3 新增模型说明(@DrownFish19)
- PR #9906: Deepseek V3 支持动态图直接加载 Float8 参数并进行推理 (@ZHUI)
- PR #9845: 新增PP-UIE系列模型 @Fantasy-02 i PR #9911 & PR #9913: PP-UIE 相关文档更新(@DrownFish19)
- Tokenizer 改进
- PR #9548、PR #9577、PR #9594: “Hackathon No.43” 系列,完善 TokenizerFast 功能支持(@yinfan98)
- PR #9745: 修复 AutoTokenizer 问题(@DrownFish19)PR #9837: 保存额外的 special tokens(@DesmonDay)
- Unified Checkpoint 相关:
- PR #9540: 修复加载master weight PR #9523: 修复缺失key问题。
- PR #9669: 统一检查点的 Bug 修复 PR #9935: 针对忽略 merge optimizer 时直接加载参数的问题进行修复
- PR #9741 & PR #9821: 修复专家并行支持问题
- MergeKit 功能增强与优化
- 新增功能与优化
- PR #9561: 新增 mergekit_with_sparsify 功能,支持稀疏化合并(@Mangodadada)。
- PR #9702: 优化 MergeKit 的 GPU 支持,提升处理效率(@Mangodadada)。
- PR #9811: 添加 LoRA(低秩适配器)合并功能,扩展模型融合能力(@lugimzzz)。
- 工具更新与维护
- PR #9885: 对 MergeKit 工具进行代码更新与维护,优化整体逻辑。
- 日志与调试支持
- PR #9948: 添加日志记录功能,增强调试与过程追踪能力(@lugimzzz)。
- 低资源特性优化
- PR #9804: 添加 use_fused_linear_cross_entropy 支持,减小显存。加入 pre_divided_factor 避免FP16溢出。
- 文档更新、其他:
- PR #9634: unified_checkpoint 文档更新
- PR #9734: 自定义设备代码重构(@ZHUI)
- PR #9715: 增加 offload_recompute_inputs(@will-jl944)
- PR #9800: 增加训练 token 计数功能(@lugimzzz)
2. LLM 训练更新
- 通用训练
- PR #9204: 更新 chatglmv2 的 tensor/pipeline 并行(@DrownFish19)
- PR #9827: 为 Qwen2Moe 和 Deepseek 增加 pipeline 与 flashmask 支持(@DrownFish19)
- Embedding 训练
- PR #9508: Embedding trainer 新增(@DesmonDay)PR #9673: 增加 INF-CL 超大batch训练支持(@jie-z-0607)
- PR #9656: Trainer 中修复加载 rng 状态问题(@DesmonDay)
- PR #9721: 修复 embedding 随机性问题(@DesmonDay)
- DPO训练
- PR #9543: LLM 模块中 dpo 对 qwen2 的 flashmask 支持(@wtmlon)
- PR #9620: 更新 dpo criterion(@lugimzzz)
- PR #9695: 支持 qwen 与 llama 的 dpo pp(@lugimzzz)
- 新功能和特性
- PR #9542: 增加 adam-mini 优化器支持(@lugimzzz)
- PR #9732: 支持BF16动量adamw 训练 (@lugimzzz)
- PR #9830: 修复非 flash 模式下 checkpoint 保存的问题(@SylarTiaNII)
- PR #9705: Cherry-Pick:在 optimizer step 前校验 loss(@SylarTiaNII)
- PR #9704: Cherry-Pick:为 LLM 训练增加异步 metrics dumper(@SylarTiaNII)
- 训练文档及问题修复
- PR #9689: 增加 KTO 功能(@lugimzzz)
- PR #9655: 更新 peft 文档(@lugimzzz)
- PR #9659: 修复 lora 相关问题(@lugimzzz)
3. Inference 更新
- Predictor & Flask 更新
- PR #9831: 修复 multibatch 推理问题(@DrownFish19)
- PR #9841: 修复 position_ids 相关问题(@DrownFish19)
- PR #9864: 更新 Deepseek 推理(@DrownFish19)
- PR #9828: Flask 服务使 Inference 兼容 OpenAI API(@ZHUI)
- MTP功能优化
- PR #9856: Inference 中支持 mtp 与 Deepseek-v3(@freeliuzc)
- PR #9894: 修复 Deepseek_v3 在多 GPU 模式下的 mtp 问题(@freeliuzc)
- PR #9936: 增加 mtp serving 支持(@freeliuzc)
- 部署优化
- PR #9872: 支持多机部署 LLM(@ltd0924)
- PR #9791: 合并 fastdeploy 部分代码(@kevincheng2)
- Kernel优化
- PR #9707: 优化 gemm_dequant OP,利用 CUDA 核进行 int8_sq 运算(@zhink)
- 文档更新、测试
- PR #9613: Inference 模块支持 llama3.2 及文档更新(@yuanlehome)
- PR #9921: 修复 llama 的 block_size 设置(@zhaohaixu)
- PR #9711: 为 LLM predictor 增加 common models 和参数单元测试(@aooxin)
4. AutoParallel / 分布式训练更新
- 自动并行
- PR #9578: 增加 llama2-7b-cinn 的测试(@zhangbo9674)
- 基础配置与 CI 集成
- PR #9538: 增加 qwen model_auto 与 CI(@blacksheep-Aristotle)
- PR #9541: 增加 llama3.1 自动并行配置(@zhiqiu)
- PR #9551: 为 gpt 和 baichuan 自动 CI 加入支持(@blacksheep-Aristotle)
- PR #9591: 增加 gpt、baichuan 及 qwen 的 ce 支持(@blacksheep-Aristotle)
- PR #9412: 增加 single_model 网络和使用 intermediate API(@blacksheep-Aristotle)
- PR #9943: 通过 training_args 控制 split input(@blacksheep-Aristotle)
- 测试、验证与功能开关
- PR #9621: 增加 PIR recompute 测试(@waliwali777)
- PR #9647: 修改 loss_base 以支持 dropout 后 SPMD(@deepllz)
- PR #9714: 增加阶段 1 tensor fusion 相关开关(@AndSonder)
- PR #9672: 修复 recompute 测试在 to_static=1 下运行问题(@waliwali777)
- PR #9688: 自动并行下合并 ckpt 供推理使用(@xuxinyi389)
- PR #9750 & PR #9753: 修复 ernine auto trainer 相关 CI 错误(@blacksheep-Aristotle)
- PR #9749: 为 benchmark 开启 tensor fusion(@AndSonder)
- PR #9810: 增加 sharding tensor fusion save/load 开关(@AndSonder)
- PR #9862: 支持 deepseekv2 下的 DP/MP(@xuxinyi389)
- PR #9823: 增加 support ppo ckpt 功能(@xuxinyi389)
5. CI、文档、Benchmark 及测试脚本更新
- CI 脚本及警告过滤
- PR #9547: 更新 CI 脚本(@Liujie0926)
- PR #9612: CI 中过滤 paddle.to_tensor 警告(@DrownFish19)
- PR #9626: 更新 a100 loss_base 配置(@Liujie0926)
- PR #9889: CI 脚本更新(@Liujie0926)
- PR #9524: LLM benchmark 中新增 qwen2.5-7b(@Liujie0926)
- PR #9662 & PR #9722: 更新 LLM_benchmark 脚本(@Liujie0926)
- 文档与说明改进
- PR #9585: 修复文档中失效链接(@DrownFish19)
- PR #9668: 更新 README.md(@ZHUI)
- PR #9785: 更新面向文档的 README(@ZHUI)
- PR #9746: 文档修复(@DrownFish19)
- PR #9725: 调整 benchmark 环境变量和模型配置(@XieYunshen)
- PR #9877: 修正 inference 和 servering 的文档(@ZHUI)
- PR #9834: 发布 DeepSeek 新闻及说明(@DrownFish19)
- PR #9922: 更正精调文档错误(@sijunhe)
- Benchmark 配置与测试
- PR #9651: 修复 benchmark 多机任务异常退出的问题(@XieYunshen)
- PR #9891: 更新 gpt-13b 在 dygraph 模式下的最佳配置(@liym27)
6. NPU/XPU 及硬件相关更新
- NPU 适配与修复
- PR #9499: 适配 NPU 用于 FusedHeadAndCrossEntropy(@tianhaodongbd)
- PR…
Excerpt shown — open the source for the full document.
Notability
notability 5.0/10Beta release of notable NLP library, routine update