ReleaseBaidu (ERNIE)Baidu (ERNIE)published Mar 12, 2025seen 5d

PaddlePaddle/PaddleNLP v3.0.0-beta4

PaddlePaddle/PaddleNLP

Open original ↗

Captured source

source ↗
published Mar 12, 2025seen 5dcaptured 10hhttp 200method plain

v3.0.0-beta4

Repository: PaddlePaddle/PaddleNLP

Tag: v3.0.0-beta4

Published: 2025-03-12T08:19:35Z

Prerelease: yes

Release notes: 本次版本中,我们全面集成了 DeepSeek R1类的思考模型。推理团队深度优化了模型推理,速度业界领先。此外,我们还发布了自研PP-UIE信息抽取模型。本次重点更新如下。

重点更新:

  • #### 模型新增
  • DeepSeek V3/R1, R1-distill, QwQ-32B 热门思考模型,全面支持。用户可以点击官方模型文档列表查看、下载所有模型。
  • 飞桨自研发布下一代通用信息抽取工具 PP-UIE 全新发布。支持8K长度信息抽取。使用文档
  • #### 推理部署
  • 全面支持DeepSeek V3/R1满血版FP8、INT8、4比特量化推理,MTP投机解码。
  • FP8推理,单机输出超1000 tokens/s;4比特单机部署,输出超2100 tokens/s!
  • 首次协同推理团队,发布统一推理部署镜像,热门模型一键部署。推理部署使用文档全面更新,体验全面提升!见文档
  • #### 模型训练:
  • 新增大模型 Embedding 训练,支持INF-CL超大batch size训练。
  • 新增MergeKit模型融合工具,缓解对齐代价。见文档
  • 低资源训练 全面优化。16G小显存可以流畅训练。
  • #### 其他重点特性:
  • 文档页面,新增模型列表展示。用户可查看、下载对应模型文件。见文档
  • 训练新增 adam-mini 优化器。AdamW优化器支持 BF16 动量。

下面是一些对应的更新细节:

1. 模型、框架组件更新

  • 模型新增
  • 模型新增列表:
  • paddlenlp/PP-UIE-0.5B, paddlenlp/PP-UIE-1.5B, paddlenlp/PP-UIE-7B, paddlenlp/PP-UIE-14B
  • deepseek-ai/DeepSeek-V3, deepseek-ai/DeepSeek-V3-Base,deepseek-ai/DeepSeek-R1, deepseek-ai/DeepSeek-R1-Zero,
  • deepseek-ai/DeepSeek-R1-Distill-Llama-70B, deepseek-ai/DeepSeek-R1-Distill-Llama-8B, deepseek-ai/DeepSeek-R1-Distill-Qwen-14B, deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B, deepseek-ai/DeepSeek-R1-Distill-Qwen-32B, deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
  • Qwen/Qwen2.5-7B-Instruct-1M,Qwen/Qwen2.5-14B-Instruct-1M, Qwen/QwQ-32B, Qwen/QwQ-32B-Preview
  • PR #9738: Deepseek V3 模型新增。PR #9876: 增加 MTP 支持。PR #9797:修复 TP问题。 PR #9643: Deepseek llama3.3 新增模型说明(@DrownFish19)
  • PR #9906: Deepseek V3 支持动态图直接加载 Float8 参数并进行推理 (@ZHUI)
  • PR #9845: 新增PP-UIE系列模型 @Fantasy-02 i PR #9911 & PR #9913: PP-UIE 相关文档更新(@DrownFish19)
  • Tokenizer 改进
  • PR #9548、PR #9577、PR #9594: “Hackathon No.43” 系列,完善 TokenizerFast 功能支持(@yinfan98)
  • PR #9745: 修复 AutoTokenizer 问题(@DrownFish19)PR #9837: 保存额外的 special tokens(@DesmonDay)
  • Unified Checkpoint 相关:
  • PR #9540: 修复加载master weight PR #9523: 修复缺失key问题。
  • PR #9669: 统一检查点的 Bug 修复 PR #9935: 针对忽略 merge optimizer 时直接加载参数的问题进行修复
  • PR #9741 & PR #9821: 修复专家并行支持问题
  • MergeKit 功能增强与优化
  • 新增功能与优化
  • PR #9561: 新增 mergekit_with_sparsify 功能,支持稀疏化合并(@Mangodadada)。
  • PR #9702: 优化 MergeKit 的 GPU 支持,提升处理效率(@Mangodadada)。
  • PR #9811: 添加 LoRA(低秩适配器)合并功能,扩展模型融合能力(@lugimzzz)。
  • 工具更新与维护
  • PR #9885: 对 MergeKit 工具进行代码更新与维护,优化整体逻辑。
  • 日志与调试支持
  • PR #9948: 添加日志记录功能,增强调试与过程追踪能力(@lugimzzz)。
  • 低资源特性优化
  • PR #9804: 添加 use_fused_linear_cross_entropy 支持,减小显存。加入 pre_divided_factor 避免FP16溢出。
  • 文档更新、其他:
  • PR #9634: unified_checkpoint 文档更新
  • PR #9734: 自定义设备代码重构(@ZHUI)
  • PR #9715: 增加 offload_recompute_inputs(@will-jl944)
  • PR #9800: 增加训练 token 计数功能(@lugimzzz)

2. LLM 训练更新

  • 通用训练
  • PR #9204: 更新 chatglmv2 的 tensor/pipeline 并行(@DrownFish19)
  • PR #9827: 为 Qwen2Moe 和 Deepseek 增加 pipeline 与 flashmask 支持(@DrownFish19)
  • Embedding 训练
  • PR #9508: Embedding trainer 新增(@DesmonDay)PR #9673: 增加 INF-CL 超大batch训练支持(@jie-z-0607)
  • PR #9656: Trainer 中修复加载 rng 状态问题(@DesmonDay)
  • PR #9721: 修复 embedding 随机性问题(@DesmonDay)
  • DPO训练
  • PR #9543: LLM 模块中 dpo 对 qwen2 的 flashmask 支持(@wtmlon)
  • PR #9620: 更新 dpo criterion(@lugimzzz)
  • PR #9695: 支持 qwen 与 llama 的 dpo pp(@lugimzzz)
  • 新功能和特性
  • PR #9542: 增加 adam-mini 优化器支持(@lugimzzz)
  • PR #9732: 支持BF16动量adamw 训练 (@lugimzzz)
  • PR #9830: 修复非 flash 模式下 checkpoint 保存的问题(@SylarTiaNII)
  • PR #9705: Cherry-Pick:在 optimizer step 前校验 loss(@SylarTiaNII)
  • PR #9704: Cherry-Pick:为 LLM 训练增加异步 metrics dumper(@SylarTiaNII)
  • 训练文档及问题修复
  • PR #9689: 增加 KTO 功能(@lugimzzz)
  • PR #9655: 更新 peft 文档(@lugimzzz)
  • PR #9659: 修复 lora 相关问题(@lugimzzz)

3. Inference 更新

  • Predictor & Flask 更新
  • PR #9831: 修复 multibatch 推理问题(@DrownFish19)
  • PR #9841: 修复 position_ids 相关问题(@DrownFish19)
  • PR #9864: 更新 Deepseek 推理(@DrownFish19)
  • PR #9828: Flask 服务使 Inference 兼容 OpenAI API(@ZHUI)
  • MTP功能优化
  • PR #9856: Inference 中支持 mtp 与 Deepseek-v3(@freeliuzc)
  • PR #9894: 修复 Deepseek_v3 在多 GPU 模式下的 mtp 问题(@freeliuzc)
  • PR #9936: 增加 mtp serving 支持(@freeliuzc)
  • 部署优化
  • PR #9872: 支持多机部署 LLM(@ltd0924)
  • PR #9791: 合并 fastdeploy 部分代码(@kevincheng2)
  • Kernel优化
  • PR #9707: 优化 gemm_dequant OP,利用 CUDA 核进行 int8_sq 运算(@zhink)
  • 文档更新、测试
  • PR #9613: Inference 模块支持 llama3.2 及文档更新(@yuanlehome)
  • PR #9921: 修复 llama 的 block_size 设置(@zhaohaixu)
  • PR #9711: 为 LLM predictor 增加 common models 和参数单元测试(@aooxin)

4. AutoParallel / 分布式训练更新

  • 自动并行
  • PR #9578: 增加 llama2-7b-cinn 的测试(@zhangbo9674)
  • 基础配置与 CI 集成
  • PR #9538: 增加 qwen model_auto 与 CI(@blacksheep-Aristotle)
  • PR #9541: 增加 llama3.1 自动并行配置(@zhiqiu)
  • PR #9551: 为 gpt 和 baichuan 自动 CI 加入支持(@blacksheep-Aristotle)
  • PR #9591: 增加 gpt、baichuan 及 qwen 的 ce 支持(@blacksheep-Aristotle)
  • PR #9412: 增加 single_model 网络和使用 intermediate API(@blacksheep-Aristotle)
  • PR #9943: 通过 training_args 控制 split input(@blacksheep-Aristotle)
  • 测试、验证与功能开关
  • PR #9621: 增加 PIR recompute 测试(@waliwali777)
  • PR #9647: 修改 loss_base 以支持 dropout 后 SPMD(@deepllz)
  • PR #9714: 增加阶段 1 tensor fusion 相关开关(@AndSonder)
  • PR #9672: 修复 recompute 测试在 to_static=1 下运行问题(@waliwali777)
  • PR #9688: 自动并行下合并 ckpt 供推理使用(@xuxinyi389)
  • PR #9750 & PR #9753: 修复 ernine auto trainer 相关 CI 错误(@blacksheep-Aristotle)
  • PR #9749: 为 benchmark 开启 tensor fusion(@AndSonder)
  • PR #9810: 增加 sharding tensor fusion save/load 开关(@AndSonder)
  • PR #9862: 支持 deepseekv2 下的 DP/MP(@xuxinyi389)
  • PR #9823: 增加 support ppo ckpt 功能(@xuxinyi389)

5. CI、文档、Benchmark 及测试脚本更新

  • CI 脚本及警告过滤
  • PR #9547: 更新 CI 脚本(@Liujie0926)
  • PR #9612: CI 中过滤 paddle.to_tensor 警告(@DrownFish19)
  • PR #9626: 更新 a100 loss_base 配置(@Liujie0926)
  • PR #9889: CI 脚本更新(@Liujie0926)
  • PR #9524: LLM benchmark 中新增 qwen2.5-7b(@Liujie0926)
  • PR #9662 & PR #9722: 更新 LLM_benchmark 脚本(@Liujie0926)
  • 文档与说明改进
  • PR #9585: 修复文档中失效链接(@DrownFish19)
  • PR #9668: 更新 README.md(@ZHUI)
  • PR #9785: 更新面向文档的 README(@ZHUI)
  • PR #9746: 文档修复(@DrownFish19)
  • PR #9725: 调整 benchmark 环境变量和模型配置(@XieYunshen)
  • PR #9877: 修正 inference 和 servering 的文档(@ZHUI)
  • PR #9834: 发布 DeepSeek 新闻及说明(@DrownFish19)
  • PR #9922: 更正精调文档错误(@sijunhe)
  • Benchmark 配置与测试
  • PR #9651: 修复 benchmark 多机任务异常退出的问题(@XieYunshen)
  • PR #9891: 更新 gpt-13b 在 dygraph 模式下的最佳配置(@liym27)

6. NPU/XPU 及硬件相关更新

  • NPU 适配与修复
  • PR #9499: 适配 NPU 用于 FusedHeadAndCrossEntropy(@tianhaodongbd)
  • PR…

Excerpt shown — open the source for the full document.

Notability

notability 5.0/10

Beta release of notable NLP library, routine update