ReleaseBaidu (ERNIE)Baidu (ERNIE)published Apr 9, 2026seen 5d

PaddlePaddle/FastDeploy v2.5.0

PaddlePaddle/FastDeploy

Open original ↗

Captured source

source ↗
published Apr 9, 2026seen 5dcaptured 8hhttp 200method plain

v2.5.0

Repository: PaddlePaddle/FastDeploy

Tag: v2.5.0

Published: 2026-04-09T06:26:05Z

Prerelease: no

Release notes:

FastDeploy Release 2.5 Release Note

新增功能

新模型支持

  • 新增Qwen3-VL模型部署支持 #5763
  • 新增Qwen3-VL MoE模型部署支持 #5913
  • 新增Qwen3-VL和Qwen3-VL MoE CUDA Graph支持 #5962
  • 新增GLM模型TP+DP+EP支持 #6317

新量化方法支持

  • 新增W4AFP8量化方法支持(v1_loader和v0_loader,支持TP>1) #5757
  • 新增NVFP4 MoE在SM100上的支持 #6003
  • 新增FusedMoE在Blackwell上的支持 #5325
  • 新增统一量化算子 #5991
  • 新增FP8量化环境变量FD_USE_PHI_FP8_QUANT支持 #6320
  • 新增Weight Only量化方法对QKVGate_proj的支持 #6669

PD分离相关功能

  • 新增多模态模型P/D分离支持 #5323
  • 新增PD分离部署配置简化和端口管理重构 #5415
  • 新增PD分离支持动态C8 IPC #5750
  • 新增PD分离RDMA动态C8支持 #5788

CUDA Graph相关功能

  • 新增Qwen3-VL和Qwen3-VL MoE CUDA Graph支持 #5962
  • 新增reorder ids以分离prefill和decode请求的支持 #5779
  • 新增full_cuda_graph控制子图切分 #6027
  • 新增max_capture_shape_prefill和cudagraph_capture_sizes_prefill配置 #6148
  • 支持CUDAGraph用于P/PD混合Batch,采用SOT子图切分模式 #6196
  • Cuda graph模式下跳过ATTN padding部分计算 #5985

RL训练相关功能

  • 新增Rollout Routing Replay支持 #5405
  • 新增V1 update/clear API for RL支持 #6974
  • 新增Thinking Pattern框架优化 #4302
  • 新增限制thinking内容长度的CUDA算子统一,支持回复长度限制与注入序列 #6511
  • R3支持RDMA Store #5467
  • 支持通过load_weights函数加载权重 #5549
  • 新增pause、update_weights、resume异步RL接口 #6052
  • 支持GLM MTP RL Model #6223 #6267
  • R3支持全层路由Fused Put #6099
  • 支持SM100 FP8量化 #6602
  • 支持moe_topk_select Paddle原生算子及FP8 MoE量化 #6935

KV Cache相关功能

  • 新增KV Cache存储支持 #5571
  • 新增attention_store KV Cache后端支持 #5823
  • 新增file_store KV Cache后端支持 #6188
  • 新增通过attention store上报token index支持 #6285
  • 新增RDMACommunicator发送key和value scale支持 #5737
  • 新增get_output_kv_signal阻塞读取模式和send_first_token支持 #5836

新API/接口支持

  • 新增stop_token_ids支持 #5399
  • 新增logprobs/prompt_logprobs token解码开关 #5463
  • 新增请求级投机解码指标监控支持 #5518
  • 新增健康检查功能 #5534
  • 新增请求级延迟细粒度追踪(Tracing Part1) #5458
  • 新增Entropy计算支持 #5692 #5730
  • 新增输出缓存默认启用 #5987
  • 新增tag phase token enforce生成支持 #6034
  • 新增SWA基于appendattn的支持 #6594
  • plugin模型支持mm_processor_kwargs #6491
  • 新增多模态模型dummy run支持 #6045
  • 新增Norm before Rope支持 #6332
  • 新增使用phi permute/unpermute并移除swiglu #6808

Engine与架构优化

  • 新增基于ZMQ通信的EngineService跨进程async_llm重构 #4868
  • 新增Golang Router用于请求调度和负载均衡 #5882 #5966
  • 新增ZMQ-based FMQ实现和benchmark工具 #5418
  • 新增Pool模型prefill batch推理支持 #5436
  • 新增Paddle启动版本检查机制 #5769
  • 新增可配置worker健康检查超时(FD_WORKER_ALIVE_TIMEOUT) #5865
  • 新增FD统计信息上报 #5646
  • 新增统一请求完成日志格式并增强统计信息 #6405
  • 新增控制台打印统计指标 #6339 #6413
  • 新增断开连接后停止在线服务中对应请求推理的支持 #5320

Loader相关功能

  • 新增V1 Loader加载静态C8 scale JSON支持 #5909
  • 新增V1 Loader按自然key顺序加载safetensors权重 #6006
  • 新增TP+EP 下v1_loader支持 #5465
  • 新增Loader dummy load weight支持 #6169
  • 新增Loader wint2后端支持 #6139
  • 新增Loader处理GPU内存碎片支持 #6790

模型层优化

  • 新增所有模型VocabParallelEmbedding的forward_meta支持 #5524
  • 对expert_dispatch算子支持更多参数配置 #5748
  • 新增FA3对GLM-RoPE的支持 #5586
  • 新增EPLB冗余专家支持 #5918
  • 新增normalization层参数重命名 #6133
  • 新增tracelogger stacklevel支持 #5766
  • 支持qkv和gate linear融合 #6552

性能优化

算子性能优化

  • 优化gather_logprob算子性能 #5817
  • 优化Qwen3 QK RMSNorm算子,通过融合Triton Kernel加速 #5880
  • 优化mask_quant和swiglu算子性能 #6222
  • W4AFp8量化场景下gemm算子采用自适应N参数优化 #5853
  • 支持FA2/FA3/FA4算子配合attn_mask_q使用 #6354

显存优化

  • MoE prefill阶段添加del操作降低峰值显存 #5863
  • Qwen模型支持动态block_wise_fp8缓存 #5486
  • 移除decoder_num_blocks_device的memset操作 #5982

调度优化

  • 优化engine-worker-queue任务检查性能 #5376 #5580
  • 减少blocks不足时的preemption发生频率 #5696
  • 优化preemption发生时的同步状态处理 #5796
  • 优化EP模式下的TTFT延迟 #6098
  • 简化available_blocks分配逻辑 #6874
  • 支持多模态prefill batch #5313

量化相关优化

  • 支持W4AFp8 MTP量化 #5429
  • 支持W4AFp8 MoE权重离线permute和加载 #5613
  • 支持W4AFp8 DeepEP低延迟两阶段模式 #5608

图优化

  • PaddleOCR-VL ViT部分使用CINN优化 #5223
  • 封装deep gemm和triton为python op #5673
  • 为per_token_quant等算子添加infershape和dtype支持 #5762
  • 封装m_grouped_gemm_fp8_fp8_bf16_nt_contiguous为自定义pyop #5847
  • 从cudagraph中移除static_op_get_block_shape_and_split_kv_block #6081

其他性能优化

  • 批量计算real max_logprobs优化 #5430
  • 支持logprob异步拷贝 #6362
  • 避免不必要的penalty计算 #6078
  • 前后处理流水线不再执行dict转换 #5494
  • Qwen2.5-VL vision模型采用合并线性层和统一处理优化 #6037
  • 支持在自定义allreduce中设置通信组以及解码阶段的all-to-all/transpose融合算子 #5917
  • 重构chat_handler和completion_handler,提取基类并使用AsyncLLM #5195
  • 更新prompt和prompt_token_ids处理逻辑 #6334
  • 在不安装torch时跳过compat guard #6926
  • 使用Paddle时为Triton使用独立的driver #6983

多硬件支持

昆仑芯XPU

新功能支持

  • 新增 speculate_step_system_cache 支持 #5397
  • 支持 get hidden state for mix 功能 #5513
  • 新增 speculate_get_logits 功能 #5497
  • 支持 PD Disaggregation 场景下 update_inputs_v1 算子 #5550
  • 支持 EP+MTP #5605
  • 支持 token num = 0 场景 #5635
  • 支持 EP4TP4 配置 #5773
  • 支持 EP4TP1 配置 (PD disaggregation) #5860
  • 支持 Speculative Decoding with PD #5856
  • 支持 mm prefill batch #6072
  • 支持 plugin model #6092
  • 支持 CudaGraph (block attn cuda_graph 支持) #6116, #6152, #6162
  • 支持从 XPU EP 接口从 xDeepEP 切换到 paddle #5706
  • 支持 recover batch sequence #6142
  • 支持 noaux_tc #6326

性能优化

  • 重构 moe ffn 优化性能 #5501
  • 默认设置 top_p=0.0 优化性能 #5686
  • 优化 logprob 性能 #5626, #5628
  • 重构 block_attn 参数 'pos_emb_type' #5511

Bug修复

  • 修复 mtp multi batch 问题 #5521
  • 修复 dp4 问题 #5946
  • 修复 moe num_expert 问题 #6014
  • 修复 multi-batch bug in VL model #6015
  • 修复 text_image_gather_scatter 在 cudagraph 模式下的问题 #6049
  • 修复 PD splitwise 模式下 seq_lens_encoder 重置问题 #6048
  • 修复 MAX_BSZ 对齐 GPU 设置及 OCR VL 禁用 prefix cache #5831

沐曦Metax

新功能支持

  • 新增 CI yaml 配置 #5520
  • 支持 cudagraph #5547
  • 支持 prefix caching & cpu swap #5844
  • 适配不同版本 maca 的 gemm 接口 #5905
  • 支持 V1_KVCACHE_SCHEDULER 和 paddleocr-vl rope mode #5555

性能优化

  • 优化 MLA backend #5258
  • 重构 cutlass moe 并优化 flash attention #5361
  • 优化 flash attention backend #5876
  • 修改 warpSize 为 WARP_SIZE #5442

Bug修复

  • 修复 GetStopFlagsMulti kernel crash 问题 #5556
  • 修复 metax runner 问题 #5629
  • 修复大图推理时 shape 错误和输出乱码问题 #5965
  • 修复 self.share_inputs['preempted_idx']=[] 使用错误 #6038
  • 修复 'get_token_penalty_multi_scores' 输入错误 #6266
  • 修复 issues based #6259 #6338

Intel HPU

新模型支持

  • 支持 ERNIE-4.5-21B-A3B-Thinking 模型 #5891

新功能支持

  • 支持 tensor_wise_fp8 #5324
  • 支持 KV cache scheduler v1 #5648
  • 支持 chunked prefill #5903
  • 支持 MoE EP #5855
  • 支持单一 PaddleCustomDevice 发布包 #5910

其他

  • 新增 HPU tensorwise_fp8 文档 #6091

天数Iluvatar

新功能支持

  • 支持 V1_KVCACHE_SCHEDULER 和 paddleocr-vl rope mode #5555

Bug修复

  • 修复 CUDA_VISIBLE_DEVICE 指定时的 FD 启动错误 #5735
  • 修复多平台兼容性问题 (使用 paddle.device.get_device_properties) #6400

Bug修复

PD分离相关Bug修复

  • 修复PD分离模式下MTP cache attaching问题 #5884
  • 修复resource_manager_v1在PD模式下的锁问题 #5616
  • 修复PD分离部署时cache int8的问题 #6571
  • 修复mix splitwise模式下的pickle加载错误 #5488
  • 修复多模态splitwise调度器的bug #5604
  • 修复PD重排序问题并添加单元测试 #6375
  • 修复MTP场景下PD重排序问题 #6917

多模态相关Bug修复

  • 修复PaddleOCR-VL模型参数放置在CPU的问题 #5413
  • 修复多模态CUDA Graph问题 #5266
  • 修复音频处理结束时的bug #5464
  • 修复视频处理bug #5557

*…

Excerpt shown — open the source for the full document.

Notability

notability 4.0/10

Routine minor release, no significant traction noted.