AI算力进入通信与带宽时代:MoE 推理瓶颈不再只是GPU 企业上 AI,最容易走偏的点之一是把问题简化成“买更多 GPU”。但当模型从标准 LLM 演进到 Mixture-of-Experts(MoE)架构,推理瓶颈开始从算力密度转向 通信延迟与内存带宽 。Google Cloud 分享了围绕 A4X(GB200 NVL72)与 NVIDIA Dynamo 的推理参考方案,强调把推理当成一个由 基础设施层、Serving 层、编排层 组成的系统工程。 对... AI基础设施 MoE 云计算 人工智能 推理 数字化