What does this release signal mean?

Baidu (ERNIE) published PaddlePaddle/FastDeploy v2.5.0 (PaddlePaddle/FastDeploy). This release signal is evidence of what shipped, changed, or was packaged for users. High-signal details: Baidu's tool for fast AI model deployment on multiple platforms. · v2.5.0 Repository: PaddlePaddle/FastDeploy Tag: v2.5.0 Published: 2026-04-09T06:26:05Z Prerelease: no Release notes: FastDeploy Release 2.5 Release Note 新增功能新模型支持 *.... onlylabs links this event to 1 captured evidence page and 6 related release signals.

Baidu (ERNIE) Release: PaddlePaddle/FastDeploy v2.5.0

Captured source

source ↗

GitHub/github.com/PaddlePaddle/FastDeploy

PaddlePaddle/FastDeploy v2.5.0

Source ↗

published Apr 9, 2026seen Jun 5captured Jun 11http 200method plain

v2.5.0

Repository: PaddlePaddle/FastDeploy

Tag: v2.5.0

Published: 2026-04-09T06:26:05Z

Prerelease: no

Release notes:

FastDeploy Release 2.5 Release Note

新增功能

新模型支持

新增Qwen3-VL模型部署支持 #5763
新增Qwen3-VL MoE模型部署支持 #5913
新增Qwen3-VL和Qwen3-VL MoE CUDA Graph支持 #5962
新增GLM模型TP+DP+EP支持 #6317

新量化方法支持

新增W4AFP8量化方法支持(v1_loader和v0_loader，支持TP>1) #5757
新增NVFP4 MoE在SM100上的支持 #6003
新增FusedMoE在Blackwell上的支持 #5325
新增统一量化算子 #5991
新增FP8量化环境变量FD_USE_PHI_FP8_QUANT支持 #6320
新增Weight Only量化方法对QKVGate_proj的支持 #6669

PD分离相关功能

新增多模态模型P/D分离支持 #5323
新增PD分离部署配置简化和端口管理重构 #5415
新增PD分离支持动态C8 IPC #5750
新增PD分离RDMA动态C8支持 #5788

CUDA Graph相关功能

新增Qwen3-VL和Qwen3-VL MoE CUDA Graph支持 #5962
新增reorder ids以分离prefill和decode请求的支持 #5779
新增full_cuda_graph控制子图切分 #6027
新增max_capture_shape_prefill和cudagraph_capture_sizes_prefill配置 #6148
支持CUDAGraph用于P/PD混合Batch，采用SOT子图切分模式 #6196
Cuda graph模式下跳过ATTN padding部分计算 #5985

RL训练相关功能

新增Rollout Routing Replay支持 #5405
新增V1 update/clear API for RL支持 #6974
新增Thinking Pattern框架优化 #4302
新增限制thinking内容长度的CUDA算子统一，支持回复长度限制与注入序列 #6511
R3支持RDMA Store #5467
支持通过load_weights函数加载权重 #5549
新增pause、update_weights、resume异步RL接口 #6052
支持GLM MTP RL Model #6223 #6267
R3支持全层路由Fused Put #6099
支持SM100 FP8量化 #6602
支持moe_topk_select Paddle原生算子及FP8 MoE量化 #6935

KV Cache相关功能

新增KV Cache存储支持 #5571
新增attention_store KV Cache后端支持 #5823
新增file_store KV Cache后端支持 #6188
新增通过attention store上报token index支持 #6285
新增RDMACommunicator发送key和value scale支持 #5737
新增get_output_kv_signal阻塞读取模式和send_first_token支持 #5836

新API/接口支持

新增stop_token_ids支持 #5399
新增logprobs/prompt_logprobs token解码开关 #5463
新增请求级投机解码指标监控支持 #5518
新增健康检查功能 #5534
新增请求级延迟细粒度追踪(Tracing Part1) #5458
新增Entropy计算支持 #5692 #5730
新增输出缓存默认启用 #5987
新增tag phase token enforce生成支持 #6034
新增SWA基于appendattn的支持 #6594
plugin模型支持mm_processor_kwargs #6491
新增多模态模型dummy run支持 #6045
新增Norm before Rope支持 #6332
新增使用phi permute/unpermute并移除swiglu #6808

Engine与架构优化

新增基于ZMQ通信的EngineService跨进程async_llm重构 #4868
新增Golang Router用于请求调度和负载均衡 #5882 #5966
新增ZMQ-based FMQ实现和benchmark工具 #5418
新增Pool模型prefill batch推理支持 #5436
新增Paddle启动版本检查机制 #5769
新增可配置worker健康检查超时(FD_WORKER_ALIVE_TIMEOUT) #5865
新增FD统计信息上报 #5646
新增统一请求完成日志格式并增强统计信息 #6405
新增控制台打印统计指标 #6339 #6413
新增断开连接后停止在线服务中对应请求推理的支持 #5320

Loader相关功能

新增V1 Loader加载静态C8 scale JSON支持 #5909
新增V1 Loader按自然key顺序加载safetensors权重 #6006
新增TP+EP 下v1_loader支持 #5465
新增Loader dummy load weight支持 #6169
新增Loader wint2后端支持 #6139
新增Loader处理GPU内存碎片支持 #6790

模型层优化

新增所有模型VocabParallelEmbedding的forward_meta支持 #5524
对expert_dispatch算子支持更多参数配置 #5748
新增FA3对GLM-RoPE的支持 #5586
新增EPLB冗余专家支持 #5918
新增normalization层参数重命名 #6133
新增tracelogger stacklevel支持 #5766
支持qkv和gate linear融合 #6552

性能优化

算子性能优化

优化gather_logprob算子性能 #5817
优化Qwen3 QK RMSNorm算子，通过融合Triton Kernel加速 #5880
优化mask_quant和swiglu算子性能 #6222
W4AFp8量化场景下gemm算子采用自适应N参数优化 #5853
支持FA2/FA3/FA4算子配合attn_mask_q使用 #6354

显存优化

MoE prefill阶段添加del操作降低峰值显存 #5863
Qwen模型支持动态block_wise_fp8缓存 #5486
移除decoder_num_blocks_device的memset操作 #5982

调度优化

优化engine-worker-queue任务检查性能 #5376 #5580
减少blocks不足时的preemption发生频率 #5696
优化preemption发生时的同步状态处理 #5796
优化EP模式下的TTFT延迟 #6098
简化available_blocks分配逻辑 #6874
支持多模态prefill batch #5313

量化相关优化

支持W4AFp8 MTP量化 #5429
支持W4AFp8 MoE权重离线permute和加载 #5613
支持W4AFp8 DeepEP低延迟两阶段模式 #5608

图优化

PaddleOCR-VL ViT部分使用CINN优化 #5223
封装deep gemm和triton为python op #5673
为per_token_quant等算子添加infershape和dtype支持 #5762
封装m_grouped_gemm_fp8_fp8_bf16_nt_contiguous为自定义pyop #5847
从cudagraph中移除static_op_get_block_shape_and_split_kv_block #6081

其他性能优化

批量计算real max_logprobs优化 #5430
支持logprob异步拷贝 #6362
避免不必要的penalty计算 #6078
前后处理流水线不再执行dict转换 #5494
Qwen2.5-VL vision模型采用合并线性层和统一处理优化 #6037
支持在自定义allreduce中设置通信组以及解码阶段的all-to-all/transpose融合算子 #5917
重构chat_handler和completion_handler，提取基类并使用AsyncLLM #5195
更新prompt和prompt_token_ids处理逻辑 #6334
在不安装torch时跳过compat guard #6926
使用Paddle时为Triton使用独立的driver #6983

多硬件支持

昆仑芯XPU

新功能支持

新增 speculate_step_system_cache 支持 #5397
支持 get hidden state for mix 功能 #5513
新增 speculate_get_logits 功能 #5497
支持 PD Disaggregation 场景下 update_inputs_v1 算子 #5550
支持 EP+MTP #5605
支持 token num = 0 场景 #5635
支持 EP4TP4 配置 #5773
支持 EP4TP1 配置 (PD disaggregation) #5860
支持 Speculative Decoding with PD #5856
支持 mm prefill batch #6072
支持 plugin model #6092
支持 CudaGraph (block attn cuda_graph 支持) #6116, #6152, #6162
支持从 XPU EP 接口从 xDeepEP 切换到 paddle #5706
支持 recover batch sequence #6142
支持 noaux_tc #6326

性能优化

重构 moe ffn 优化性能 #5501
默认设置 top_p=0.0 优化性能 #5686
优化 logprob 性能 #5626, #5628
重构 block_attn 参数 'pos_emb_type' #5511

Bug修复

修复 mtp multi batch 问题 #5521
修复 dp4 问题 #5946
修复 moe num_expert 问题 #6014
修复 multi-batch bug in VL model #6015
修复 text_image_gather_scatter 在 cudagraph 模式下的问题 #6049
修复 PD splitwise 模式下 seq_lens_encoder 重置问题 #6048
修复 MAX_BSZ 对齐 GPU 设置及 OCR VL 禁用 prefix cache #5831

沐曦Metax

新功能支持

新增 CI yaml 配置 #5520
支持 cudagraph #5547
支持 prefix caching & cpu swap #5844
适配不同版本 maca 的 gemm 接口 #5905
支持 V1_KVCACHE_SCHEDULER 和 paddleocr-vl rope mode #5555

性能优化

优化 MLA backend #5258
重构 cutlass moe 并优化 flash attention #5361
优化 flash attention backend #5876
修改 warpSize 为 WARP_SIZE #5442

Bug修复

修复 GetStopFlagsMulti kernel crash 问题 #5556
修复 metax runner 问题 #5629
修复大图推理时 shape 错误和输出乱码问题 #5965
修复 self.share_inputs['preempted_idx']=[] 使用错误 #6038
修复 'get_token_penalty_multi_scores' 输入错误 #6266
修复 issues based #6259 #6338

Intel HPU

新模型支持

支持 ERNIE-4.5-21B-A3B-Thinking 模型 #5891

新功能支持

支持 tensor_wise_fp8 #5324
支持 KV cache scheduler v1 #5648
支持 chunked prefill #5903
支持 MoE EP #5855
支持单一 PaddleCustomDevice 发布包 #5910

其他

新增 HPU tensorwise_fp8 文档 #6091

天数Iluvatar

新功能支持

支持 V1_KVCACHE_SCHEDULER 和 paddleocr-vl rope mode #5555

Bug修复

修复 CUDA_VISIBLE_DEVICE 指定时的 FD 启动错误 #5735
修复多平台兼容性问题 (使用 paddle.device.get_device_properties) #6400

Bug修复

PD分离相关Bug修复

修复PD分离模式下MTP cache attaching问题 #5884
修复resource_manager_v1在PD模式下的锁问题 #5616
修复PD分离部署时cache int8的问题 #6571
修复mix splitwise模式下的pickle加载错误 #5488
修复多模态splitwise调度器的bug #5604
修复PD重排序问题并添加单元测试 #6375
修复MTP场景下PD重排序问题 #6917

多模态相关Bug修复

修复PaddleOCR-VL模型参数放置在CPU的问题 #5413
修复多模态CUDA Graph问题 #5266
修复音频处理结束时的bug #5464
修复视频处理bug #5557

*...

Excerpt shown — open the source for the full document.

Notability

notability 4.0/10

Routine minor release, no significant traction noted.