AI Infra Brief｜云推理加速与解耦架构领先（2026.03.14）

2026 年 3 月 14 日，云推理加速与解耦架构成为焦点，AWS 和 Microsoft 在推理性能上持续加码，开源生态围绕 Agent 记忆、评估与安全快速演进。

🧭 核心速览

🚀 AWS 推出 P-EAGLE 并与 Cerebras 合作解耦推理架构

💻 Microsoft Azure 集成 Fireworks AI 实现高性能开源模型推理

🌐 Equinix 推出厂商无关的分布式 AI 覆盖 280 个数据中心

⭐ Context Gateway v0.5.2 通过历史摘要加速上下文处理

🔧 rails-llm-integration v1.0.0 将 Claude 技能引入 Rails 应用

🧬 NVIDIA Nemotron 3 Super 开源 120B 混合 Mamba-Transformer MoE

🔍 zer0dex 双层记忆在本地 Agent 中实现 91.2% 召回率

算力与云基础设施

🚀 AWS 推出 P-EAGLE 并行投机解码

根据 AWS 官方博客，AWS 发布 P-EAGLE（Parallel-EAGLE）——一种集成到 vLLM 的并行投机解码方法，通过并行验证提高吞吐量并降低延迟。该技术已在 Trainium 上部署，并通过 Bedrock 提供服务。

投机解码通过小模型预测大模型输出，并行验证可以进一步加速推理过程。P-EAGLE 是 AWS 在推理优化领域的持续投入。

🎯 AWS 与 Cerebras 合作推出解耦推理架构

根据 Amazon 新闻，AWS 和 Cerebras 宣布解耦推理架构：Trainium 负责预填充（prefill），Cerebras CS-3 负责解码（decode），该架构将独家在 Bedrock 上推出，预计性能提升一个数量级。

Prefill 和 Decode 是推理的两个不同阶段，对计算资源需求差异显著。解耦架构可以根据不同阶段特点优化硬件选择，这是推理架构设计的重要演进方向。

💻 Microsoft Azure 集成 Fireworks AI

根据 Azure 博客，Microsoft Foundry 集成 Fireworks AI 提供高性能开源模型推理，支持 serverless 按需计费或 PTU 预留，支持 DeepSeek V3.2 和 Qwen3 等模型。

Fireworks AI 以高性能推理服务著称，此次集成进一步扩展了 Azure 的开源模型生态，为企业提供更多推理选择。

🌐 Equinix 推出分布式 AI Hub

根据 PR Newswire，Equinix 推出厂商无关的分布式 AI Hub，通过 Fabric Intelligence 覆盖 280 个数据中心，并集成 Palo Alto Networks 提供实时安全防护。

分布式 AI Hub 解决企业在多地点部署 AI 基础设施的挑战，厂商无关设计避免供应商锁定。

💾 AIC 与 ScaleFlux 推出上下文存储平台

根据 National Today，AIC 和 ScaleFlux 推出推理上下文存储平台，通过 AIC F2032-G6、ScaleFlux NVMe SSD 和 NVIDIA 网络，将大 KV 缓存从 GPU 卸载。

KV 缓存占用大量 GPU 显存是推理成本的重要因素，上下文存储平台通过专用硬件降低 GPU 内存压力，提高推理效率。

开源生态

⭐ Context Gateway v0.5.2：历史摘要代理

根据 GitHub，Context Gateway v0.5.2（Compresr）是一个 Agent 代理，通过预计算历史摘要避免上下文窗口延迟，使用 Go 编写，开源发布。

长对话场景下，每次请求都携带完整历史导致延迟增加。Context Gateway 通过摘要预计算优化这一过程，是实用的工程优化方案。

🔧 rails-llm-integration v1.0.0：Rails + Claude

根据 GitHub，rails-llm-integration v1.0.0 提供 Rails 约定和服务对象用于结构化 LLM 功能，可直接作为 Claude Skill 运行。

该工具降低 Rails 应用集成 LLM 的门槛，通过约定优于配置的设计理念简化开发流程。

🧬 NVIDIA Nemotron 3 Super：120B 混合 MoE

根据 NVIDIA 开发者博客，NVIDIA 发布 Nemotron 3 Super，120B 参数混合 Mamba-Transformer MoE，支持 100 万 token 上下文，专为 Agent 推理设计，采用 NVIDIA Nemotron 开源模型许可证。

Mamba-Transformer 混合架构结合线性注意力和标准 Transformer 的优势，长上下文和大参数量为复杂 Agent 任务提供基础。

🤖 Mega-OS：38 个 Agent 的个人 OS 框架

根据 GitHub，Mega-OS 是基于 Claude Code 的个人 OS 框架，包含 38 个 Agent 分为五大类，通过 Git 持久化上下文。

个人 Agent 操作系统是 AI 的热门方向，Mega-OS 通过大量专业 Agent 和 Git 持久化提供本地化的 AI 辅助体验。

🔄 AutoContext：闭环知识更新系统

根据 GitHub，AutoContext 是闭环系统，评估运行、更新持久知识、蒸馏成功行为以降低执行成本。

持续学习和知识蒸馏是 Agent 长期运行的关键挑战，AutoContext 通过闭环机制自动优化。

💡 Meta COCONUT：潜在推理来源讨论

根据 Reddit 讨论，Meta 的 COCONUT 实验表明"潜在推理"可能来自课程训练，回收隐藏状态会损害 OOD 泛化。

COCONUT 是 Meta 关于模型推理能力的研究，社区实验揭示了其训练机制的关键细节。

⚖️ JudgeGPT：开源 LLM-as-a-Judge

根据 Reddit，JudgeGPT 是开源 LLM-as-a-Judge 工具，支持本地 Ollama 评估、思维链和 Prometheus 指标。

LLM-as-a-Judge 是评估 LLM 输出的常用方法，JudgeGPT 将其本地化并开源。

🛡️ Blender MCP 安全问题

根据 Reddit，Blender MCP 服务器存在任意执行、数据泄露链和提示注入风险，AgentSeal 检测器可识别问题。

MCP（Model Context Protocol）是 AI Agent 与外部工具交互的协议，安全性是关键挑战。

📜 SLANG：多 Agent 工作流声明式语言

根据 Reddit，SLANG 是多 Agent 工作流声明式语言，提供 stake/await/commit 原语，跨多个模型后端运行。

多 Agent 编排是复杂 AI 系统的核心问题，声明式语言简化工作流定义。

🔬 Tiny LLM 实用场景

根据 GitHub，Tiny LLM 社区仓库收集实用小模型工作流，展示小模型在实际场景中的应用。

小模型因部署成本低在边缘场景有重要价值，该仓库提供实用参考。

模型推理与 Serving

🧠 zer0dex 双层记忆实现 91.2% 召回率

根据 Reddit，zer0dex 双层记忆系统在本地 Agent 中实现 91.2% 召回率，对比 RAG 的 80.3%，使用压缩语义索引加 ChromaDB，完全离线。

Agent 记忆是持久化上下文的关键技术，双层记忆结合压缩和向量检索提供高召回率。

⚡ llama.cpp 性能对比 LMStudio

根据 Reddit，llama.cpp 在 Qwen 3.5 9B 上达到 4.6 tok/s，对比 LMStudio 的 2.4 tok/s，讨论涵盖编译、GPU 卸载和上下文大小优化。

本地推理性能影响用户体验，llama.cpp 作为底层库提供更高性能上限。

📱 Codey-v2 Android 端代码 Agent

根据 Reddit，Codey-v2 是 Android 端代码 Agent，提供长期记忆、自适应风格和热插拔模型，基于 llama.cpp 和 GGUF 构建。

端侧 AI 代理是重要方向，Codey-v2 展示在移动设备上构建本地编码 Agent 的可行性。

🔍 Infra Insights

本日核心趋势：推理加速和解耦架构、Agent 记忆与评估工具成熟、分布式企业 AI 基础设施路径清晰。

云厂商通过并行投机解码和预填/解码解耦架构优化推理性能。开源工具链围绕 Agent 记忆和评估快速成熟，Equinix 分布式 AI Hub 为企业提供自托管路径选择。