PaddlePaddle/FastDeploy v2.3.0
PaddlePaddle/FastDeploy
Captured source
source ↗published Nov 11, 2025seen 5dcaptured 10hhttp 200method plain
v2.3.0
Repository: PaddlePaddle/FastDeploy
Tag: v2.3.0
Published: 2025-11-11T03:27:35Z
Prerelease: no
Release notes:
新增功能
- 新增GLM 4.5文本类模型部署支持 #3928
- 新增GPT-OSS-BF16文本类模型部署支持 #4240
- 新增ERNIE-4.5-VL-28B-A3B-Thinking多模态思考模型部署支持,详见文档
- 新增PaddleOCR-VL多模态模型部署支持 #4936
- 多模态模型和思考模型增加受限解码StructredOutput支持 #2749
- 多模态模型增加Prefix Caching与Encoder Caching支持 #4134
- 新增Wfp8Afp8在线量化推理支持 #4051 #4238
- 新增静态Cfp8量化推理支持 #4568
- LogProb功能
- 支持EP并行下开启logprob #4151
- 支持MTP场景下开启logprob #4464 #4467
- 新增``
logprobs_mode``参数指定返回结果的类型 #4567 - HuggingFace Safetensors模型升级为默认能力
- Qwen2.5-VL系列支持 #3921
- ERNIE-4.5-VL系列模型支持 #4042
- 新增EP并行与Cache量化场景下支持 #3801
- 新增动态量化缓存机制,二次加载可使用缓存进行加载 #3857
- Nvidia GPU下CUDA Graphs功能的完善
- CUDA Graphs默认在Decode阶段开启 #3594
- 使用统一内存池,降低显存开销 #4230
- 支持投机解码 #3769 #4545 #4617 #4669
- 支持TP、DP、EP混合并行 #4456 #4589
- 支持 PD 分离式部署 #4530
- 支持权重清理与动态加载下的重捕获 #3781 #3594
- 支持CustomAllReduce下开启CUDA Graphs重捕获 #4305
- 增加ERNIE-4.5-VL-MOE模型的支持 #3226
- 新增终端命令行CLI工具集
- chat:执行对话生成任务 #4037
- complete:执行文本补全任务 #4037
- serve:启动与OpenAI协议兼容的推理服务 #4226
- bench:对推理服务进行性能(延迟、吞吐)或精度评测
- bench serve \ bench latency 精度评测工具 #4160 #4239
- bench throughtput \ bench eval 性能评测工具 #4239
- collect-env:收集并打印系统、GPU、依赖等运行环境信息 #4044 #4558 #4159
- run-batch:批量执行推理任务,支持文件/URL输入输出 # 4237
- tokenizer:执行文本与 token 的编码、解码及词表导出 #4278
- 新增``
engine-worker-queue-port与cache-queue-port``的匿名端口支持 #4597 - 新增``
LogitsProcessors```后处理参数支持 #4515 - 新增ERNIE-45-VL-Thinking模型的ReasoningParser与ToolParser #4571
usage``字段返回新增多模态输入与输出Token、思考Token的统计 #4648 #4520- 新增``
n``参数支持单请求返回多个生成结果 #4273 - 离线推理chat接口新增``
tool``参数支持工具调用 #4415 - 多模态数据预处理增加对url数据的下载增加重试 #3838
性能优化
- 优化per_token_quant_fp8算子性能,提升50% #4238
- MTP支持Chunked Prefill与V1 KVCache调度 #3659 #4366
- V1 KVCache调度增加对上下文缓存的支持,并作为默认配置 #3807 #3814
- 优化MLA kernel性能,支持auto chunk + graph下的高性能MLA kernel #3886
- 优化Qwen-VL中ViT模块的CPU同步耗时 #4442
- Machete GEMM支持WINT4/WINT8以及group scale,并作为默认dense GEMM后端,优化模型性能与精度 #4451 #4295 #4121 #3999 #3905
- 优化append attention前处理算子性能 #4443 #4369 #4367
- 思考长度裁剪功能自定义算子化,实现更鲁棒更规范 #4279 #4736
- INTEL HPU优化多卡场景下sampling #4445
- 新增MergedReplicatedLinear方法,支持DeepSeek,qkv_a_proj融合 #3673
- 优化DeepEP buffer显存;支持EP场景下DeepEP buffer的creat/delete功能 #4039
- 优化集中式EP场景下DeepEP clear buffer带来的降速 #4039
- spec decode适配qk norm #3637
- 优化MLA Kernel性能,支持auto chunk + CUDA Graphs #3886
- 解决KV Cache容量分配偏小问题 #4355
- Engine与Worker跨进程通信支持零拷贝方式传输多模态张量数据 #4531
- APIServer支持gunicore+uvicorn优化前处理耗时 #4496 #4364
多硬件
- 昆仑芯P800
- 新增ERNIE-4.5-VL系列模型的支持 #4030
- 新增PaddleOCR-VL 0.9B模型的支持 #4529
- BlockAttention算子支持neos版本rope #4723
- 新增W4A8精度支持 #4068
- 适配V1 KVCache调度 #4573
- 沐曦C550
- 优化Attention、MoE、RotaryEmbedding算子实现 #3688
- 新增DeepSeek-R1、DeepSeek-V3.1-BF16部署支持 #4498
- 天数CoreX
- 新增ERNIE-4.5-VL-28B-A3B部署支持 #4313
- ERNIE-4.5-300B-A47B推理性能优化 #3651
- 修复rebuild_padding错误问题 #4504
文档
- 新增终端命令行工具CLI命令使用说明 #4569
- 新增优雅退出方案 #3785
- 更新模型支持文档 #4754
- 新增2Bit量化方式和最佳实践 #3819 #3968
- 新增DP并行部署文档 #3883
- 新增昆仑芯ERNIE-4.5-VL模型部署文档 #4586
- 新增XPU PaddleOCR-VL模型部署文档 #4792
- 更新模型最佳实践文档 #3969
- 新增ERNIE-4.5-21B-A3B-Thinking最佳实践文档 #3994
- 更新metrics指标说明文档 #4061
- 更新接口参数文档,增加``
completion_tokens、rompt_tokens、tool_calls``说明 #4421
Bug修复
- 修复DP并行场景下Prefix Caching无法部署问题 #4359 #4370
- 修复集中式EP并行部署下长输入KVCache调度Hang住问题 #4275
- 修复开启CUDA Graphs时noaux_tc算子报错CUDA 700问题 #4174
- 修复V1 Loader下TritonMoEBlockWiseFP8权重shape错误 #4384
- 修复EP场景下MoE前处理问题,增加num_experts_per_rank合法值 #4102
- 修复CustomAllReduce输出不稳定问题 #4437
- 修复昆仑芯下思考长度限制,只有思考无回复内容问题 #4539 #4760
- 修复推理异常退出场景下KVCache管理进程残留问题 #4410
- 修复部分场景默认开启ChunkedPrefill报错问题 #3759
- 修复调度方法导致DeepSeek模型CudaError问题 #4757
- 修复XPU多模下默认开启上下文缓存bug #4694
- 修复MTP与C8场景下模型加载问题 #4077
- 修复MLA默认开启TensorCore的bug #4354
- 修复APIServer连接重复初始化的问题 #3901
- 修复MultiAPIServer日志地址混乱问题 #3967
- 修复多机张量并行无法部署问题 #4377
- 修复Qwen-VL系列模型无法关闭思考问题 #3808 #4762
- 修复APIServer的对话接口非流式返回场景下``
finish_reason``不正确问题 #4582 - 修复ERNIE-4.5-VL模型ReasoningPaserser中思考结束符错误问题 #4686
- 修复离线接口``
enable_thinking``强制False的不符合预期错误 #4248 - 修复ERNIE-4.5-VL对PNG格式透明背景图像的处理问题 #4847
- 修复rope3d开启FA3下的报错问题 #3791
- 修复部分硬件平台上算子导入出错问题 #4559
- 修复PD分离EP并行场景下启动推理服务的多个问题 # 4311 #4420 #4542 #4693 #4781
- 修复Metrics中``
num_requests_running,num_requests_waiting,available_gpu_block_num``统计不准确的问题 #4404 - 修复Trace日志在流式输出场景下trace span过多问题 #4375
- 修复动态C8计算错误问题 #4119
- 修复AppendAttention作为自定义算子注册下的Bug导致动静不统一问题 #4340
- 修复Qwen-VL系列模型预处理中视频与图片数据的占位符处理错误 #4065
- 修复模型组网存在的无用显存浪费问题 #3854
- 修复思考长度限制在并发场景下的Bug #4296
- 修复PD分离下IPC信号读取错误问题 #4309
- 修复metrics指标的共享目录命名冲突问题 #4007
- 修复昆仑芯barrier随机精度问题 #4181
- 修复思考长度限制超过上限时的异常问题 #4086
其它
- 修复沐曦硬件上的单测报错问题 #4027
- 修复沐曦硬件上的单测报错问题``
test_get_save_output_v1``单测偶发挂的问题 #4732 - 昆仑芯增加W4A8单测用例 #4501
Config``配置代码优化,去除冗余字段 #4147 #4362 #4400- 第三方库采用submodule管理 #4033
- 新增DeepSeek-V3-0324端到端监控 #4360
- ERNIE-4.5-VL模型续推字段``
generated_token_ids改为completion_token_ids`` #4086 - 后面进程异常退出时,APIServer进程自动退出提在终端输出提示 #3271
- Metrics增加若干可观测性指标 #3868
- 新增Attention层的性能单测 #4494
- DP+EP并行场景下支持模型权重的热更新 #3765 #3803 #3898
- 支持在训练场景下强制停止推理请求 #3601 #4402
- 修复在训练场景下Qwen3模型命名映射异常问题 #4338 #4322
- 修复流式请求``
max_streaming_response_token``参数不起作用问题 #3789 - 增加基于ZMQ回传worker推理结果至Engine的通信方式 #3521
What's Changed
- Add more runtime information to resource manager by @ming1753 in https://github.com/PaddlePaddle/FastDeploy/pull/3706
- Add CI cases by @ZhangYulongg in https://github.com/PaddlePaddle/FastDeploy/pull/3714
- Add loader test for mtp by @YuanRisheng in https://github.com/PaddlePaddle/FastDeploy/pull/3724
- fix typos by @co63oc in https://github.com/PaddlePaddle/FastDeploy/pull/3684
- add ci images build job by @XieYunshen in https://github.com/PaddlePaddle/FastDeploy/pull/3749
- [DOC] fix Document by @lizexu123 in https://github.com/PaddlePaddle/FastDeploy/pull/3782
- Update test_ernie_21b_mtp.py by @ZhangYulongg in https://github.com/PaddlePaddle/FastDeploy/pull/3783
- fix test_load_mtp by @co63oc in https://github.com/PaddlePaddle/FastDeploy/pull/3780
- [BugFix] Fix chunked prefill by @kevincheng2 in https://github.com/PaddlePaddle/FastDeploy/pull/3759
- [BugFix] fix max streaming tokens invalid by @ltd0924 in https://github.com/PaddlePaddle/FastDeploy/pull/3789
- [Feature] Setting number of apiserver workers automatically by @Jiang-Jia-Jun in https://github.com/PaddlePaddle/FastDeploy/pull/3790
- [Feature] mm and thinking model support structred output by @kevincheng2 in…
Excerpt shown — open the source for the full document.
Notability
notability 4.0/10Routine version update of deployment tool