一、ERNIE-4.5-VL-28B-A3B介绍

ERNIE 4.5 亮点

ERNIE 4.5 模型的高级功能，特别是基于 MoE 的 A47B 和 A3B 系列，由以下几个关键技术革新支持：

多模态异构 MoE 预训练： 我们的模型在文本和视觉模态上进行联合训练，以更好地捕捉多模态信息的细微差别，并提高涉及文本理解与生成、图像理解和跨模态推理等任务的性能。为了实现这一点而不让一个模态阻碍另一个模态的学习，我们设计了 异构 MoE 结构 ，引入了 模态隔离路由 ，并采用了路由器正交损失和 多模态标记平衡损失 。这些架构选择确保了两种模态都能被有效表示，允许在训练过程中相互加强。
高效扩展基础设施： 我们提出了一种新颖的异构混合并行性和分层负载均衡策略，以高效地训练 ERNIE 4.5 模型。通过使用节点内专家并行性、内存高效的管道调度、FP8 混合精度训练和细粒度重计算方法，我们实现了显著的预训练吞吐量。对于推理，我们提出了多专家并行协作方法和卷积码量化算法，以实现 4 位/2 位无损量化。此外，我们引入了带有动态角色切换的 PD 解聚，以有效利用资源来增强 ERNIE 4.5 MoE 模型的推理性能。基于 PaddlePaddle，ERNIE 4.5 在广泛的硬件平台上提供了高性能推理。
针对特定模态的后训练： 为了满足现实世界应用的多样化需求，我们对预训练模型的不同变体进行了针对特定模态的微调。我们的 LLM（大型语言模型）优化了通用语言理解和生成能力。VLM（视觉-语言模型）专注于视觉-语言理解，并支持思考和非思考模式。每个模型都采用了一种结合 监督微调(SFT) 、*直接偏好优化(DPO)或一种名为统一偏好优化(UPO)*的改进强化学习方法来进行后训练。

在视觉-语言模型的微调阶段，视觉与语言之间的深度整合在复杂任务如理解、推理和生成中起着决定性作用。为了增强模型在多模态任务上的泛化能力和适应性，我们专注于三个核心能力——图像理解、任务特定微调以及多模态链式思维推理，并进行了系统性的数据构建和训练策略优化。此外，我们使用 RLVR（可验证奖励的强化学习）进一步提高了对齐度和性能。经过 SFT 和 RL 阶段后，我们得到了 ERNIE-4.5-VL-28B-A3B。

模型概述

ERNIE-4.5-VL-28B-A3B 是一个多模态 MoE 聊天模型，总参数为 28B，每个 token 激活参数为 3B。以下是模型配置详情：

键	值
模态	文本与视觉
训练阶段	后训练
参数(总/激活)	28B / 3B
层数	28
头(Q/KV)	20 / 4
文本专家(总/激活)	64 / 6
视觉专家(总/激活)	64 / 6
共享专家	2
上下文长度	131072

二、部署过程

基础环境最低要求说明：

环境名称	版本信息 1
Ubuntu	22.04.4 LTS
Cuda	V12.6
Python	3.10~3-12
NVIDIA Corporation	A100 SXM4*1

1.构建基础镜像 Miniconda-Ubuntu-22.04-cuda12.1.1

2.从 github 仓库克隆项目：

# 克隆ERNIE-4.5-VL-28B-A3B-Paddle项目
 git clone https://github.com/PaddlePaddle/ERNIE.git

3.创建虚拟环境

# 创建一个名为 ernie4.5的新虚拟环境，并指定 Python 版本为 3.10
conda create -n ernie4.5 python=3.10 -y

4.安装模型依赖包

激活ernie4.5，并进入到 ERNIE目录中，安装 requirements.txt 依赖。

# 切换到项目工作目录
cd ERNIE/requirements/gpu/

# 激活 Qcoder 虚拟环境
conda activate ERNIE_4.5

# 在 ERNIE_4.5 环境中安装 requirements.txt 依赖
pip install -r requirements.txt

5.下载预训练模型

预训练模型太大需要放到数据网盘sj-fs里面。从huggingface中下载模型

1.返回到ERNIE目录下

cd ERNIE

2.执行以下代码下载预训练权重

huggingface-cli download baidu/ERNIE-4.5-0.3B-Paddle --local-dir baidu/ERNIE-4.5-0.3B-Paddle

3.模型下载完成后，依次执行以下代码安装所需框架

python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-80_90/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-86_89/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

6.启动服务

# 切换到项目目录
cd /ERNIE
# 激活虚拟环境
conda activate ernie4.5
# 启动 api_server 服务到后台
python -m fastdeploy.entrypoints.openai.api_server \
       --model baidu/ERNIE-4.5-VL-28B-A3B-Paddle \
       --port 8180 \
       --metrics-port 8181 \
       --engine-worker-queue-port 8182 \
       --max-model-len 32768 \
       --enable-mm \
       --reasoning-parser ernie-45-vl \
       --max-num-seqs 32
# 设置环境变量并启动 WebUI 到后台
cd /ERNIE/cookbook
python conversation_demo.py \
  --model_map '{"ERNIE-4.5-VL-28B-A3B": "http://localhost:8180/v1"}' \
  --server-port 8080 \
  --server-name 0.0.0.0 \
  --max_char 32768 \
  --max_retry_num 3