企业上 AI,最容易走偏的点之一是把问题简化成“买更多 GPU”。但当模型从标准 LLM 演进到 Mixture-of-Experts(MoE)架构,推理瓶颈开始从算力密度转向通信延迟与内存带宽。Google Cloud 分享了围绕 A4X(GB200 NVL72)与 NVIDIA Dynamo 的推理参考方案,强调把推理当成一个由基础设施层、Serving 层、编排层组成的系统工程。
对“ERP + AI”最关键的启示
- AI 不是单体应用:要服务多业务线、多系统调用、可扩展并发,必须工程化。
- 成本与性能的权衡更细:不同场景(批处理 vs 实时问答)对吞吐/延迟要求不同,需要分层架构。
- 平台化比堆硬件更重要:K8s/GKE 这类编排、缓存管理、可观测性,决定了能不能规模化复用。
三层架构(用企业语言翻译一下)
- 基础设施层:计算 + 网络 + 存储(决定带宽、延迟、稳定性)。
- Serving 层:模型运行时/推理引擎(KV cache、调度、并行策略)。
- 编排层:资源生命周期、扩缩容、容灾、配额与调度策略。
落地建议(先做对,再做大)
- 把业务场景按 SLA 分层:实时(低延迟)/准实时/离线批处理。
- 优先把“数据与缓存”设计好:上下文、向量库、KV cache、冷热分层。
- 把可观测性做成默认:每次推理调用都能追踪成本、延迟、失败原因。
参考来源
Google Cloud Blog: Scaling MoE inference with NVIDIA Dynamo on Google Cloud A4X
