模型部署arrowPic ERNIE-4.5-VL-28B-A3B-Paddle 模型部署教程
ERNIE-4.5-VL-28B-A3B-Paddle 模型部署教程
发布时间:2025-09-16 14:40:11

一、ERNIE-4.5-VL-28B-A3B介绍

ERNIE 4.5 亮点

ERNIE 4.5 模型的高级功能,特别是基于 MoE 的 A47B 和 A3B 系列,由以下几个关键技术革新支持:

  1. 多模态异构 MoE 预训练: 我们的模型在文本和视觉模态上进行联合训练,以更好地捕捉多模态信息的细微差别,并提高涉及文本理解与生成、图像理解和跨模态推理等任务的性能。为了实现这一点而不让一个模态阻碍另一个模态的学习,我们设计了 异构 MoE 结构 ,引入了 模态隔离路由 ,并采用了路由器正交损失和 多模态标记平衡损失 。这些架构选择确保了两种模态都能被有效表示,允许在训练过程中相互加强。
  2. 高效扩展基础设施: 我们提出了一种新颖的异构混合并行性和分层负载均衡策略,以高效地训练 ERNIE 4.5 模型。通过使用节点内专家并行性、内存高效的管道调度、FP8 混合精度训练和细粒度重计算方法,我们实现了显著的预训练吞吐量。对于推理,我们提出了多专家并行协作方法和卷积码量化算法,以实现 4 位/2 位无损量化。此外,我们引入了带有动态角色切换的 PD 解聚,以有效利用资源来增强 ERNIE 4.5 MoE 模型的推理性能。基于 PaddlePaddle,ERNIE 4.5 在广泛的硬件平台上提供了高性能推理。
  3. 针对特定模态的后训练: 为了满足现实世界应用的多样化需求,我们对预训练模型的不同变体进行了针对特定模态的微调。我们的 LLM(大型语言模型)优化了通用语言理解和生成能力。VLM(视觉-语言模型)专注于视觉-语言理解,并支持思考和非思考模式。每个模型都采用了一种结合 监督微调(SFT) 、*直接偏好优化(DPO)或一种名为统一偏好优化(UPO)*的改进强化学习方法来进行后训练。

在视觉-语言模型的微调阶段,视觉与语言之间的深度整合在复杂任务如理解、推理和生成中起着决定性作用。为了增强模型在多模态任务上的泛化能力和适应性,我们专注于三个核心能力——图像理解、任务特定微调以及多模态链式思维推理,并进行了系统性的数据构建和训练策略优化。此外,我们使用 RLVR(可验证奖励的强化学习)进一步提高了对齐度和性能。经过 SFT 和 RL 阶段后,我们得到了 ERNIE-4.5-VL-28B-A3B。

模型概述

ERNIE-4.5-VL-28B-A3B 是一个多模态 MoE 聊天模型,总参数为 28B,每个 token 激活参数为 3B。以下是模型配置详情:

模态 文本与视觉
训练阶段 后训练
参数(总/激活) 28B / 3B
层数 28
头(Q/KV) 20 / 4
文本专家(总/激活) 64 / 6
视觉专家(总/激活) 64 / 6
共享专家 2
上下文长度 131072

二、部署过程

基础环境最低要求说明:

环境名称 版本信息 1
Ubuntu 22.04.4 LTS
Cuda V12.6
Python 3.10~3-12
NVIDIA Corporation A100 SXM4*1

1.构建基础镜像 Miniconda-Ubuntu-22.04-cuda12.1.1

image.png

2.从 github 仓库 克隆项目:

# 克隆ERNIE-4.5-VL-28B-A3B-Paddle项目
 git clone https://github.com/PaddlePaddle/ERNIE.git

image.png

3.创建虚拟环境

# 创建一个名为 ernie4.5的新虚拟环境,并指定 Python 版本为 3.10
conda create -n ernie4.5 python=3.10 -y

image.png

4.安装模型依赖包

激活ernie4.5,并进入到 ERNIE目录中,安装 requirements.txt 依赖。

# 切换到项目工作目录
cd ERNIE/requirements/gpu/

# 激活 Qcoder 虚拟环境
conda activate ERNIE_4.5

# 在 ERNIE_4.5 环境中安装 requirements.txt 依赖
pip install -r requirements.txt

5.下载预训练模型

预训练模型太大需要放到数据网盘sj-fs里面。从huggingface中下载模型

1.返回到ERNIE目录下

cd ERNIE

2.执行以下代码下载预训练权重

huggingface-cli download baidu/ERNIE-4.5-0.3B-Paddle --local-dir baidu/ERNIE-4.5-0.3B-Paddle

image.png

3.模型下载完成后,依次执行以下代码安装所需框架

python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-80_90/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-86_89/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

6.启动服务

# 切换到项目目录
cd /ERNIE
# 激活虚拟环境
conda activate ernie4.5
# 启动 api_server 服务到后台
python -m fastdeploy.entrypoints.openai.api_server \
       --model baidu/ERNIE-4.5-VL-28B-A3B-Paddle \
       --port 8180 \
       --metrics-port 8181 \
       --engine-worker-queue-port 8182 \
       --max-model-len 32768 \
       --enable-mm \
       --reasoning-parser ernie-45-vl \
       --max-num-seqs 32
# 设置环境变量并启动 WebUI 到后台
cd /ERNIE/cookbook
python conversation_demo.py \
  --model_map '{"ERNIE-4.5-VL-28B-A3B": "http://localhost:8180/v1"}' \
  --server-port 8080 \
  --server-name 0.0.0.0 \
  --max_char 32768 \
  --max_retry_num 3

三、网页演示

出现以下页面,即是模型已搭建完成。

image.png

点击此处,立即体验ERNIE-4.5-VL-28B-A3B-Paddle!

bg-circle
算力加速·赋能科研
2026闲时计算资源公益助研活动进行中
2026年1月1日-2026年12月31
立即申请
关注好礼
客服中心