AI Infra Dao

AI Infra Brief|云推理加速与解耦架构领先(2026.03.14)

2026 年 3 月 14 日,云推理加速与解耦架构成为焦点,AWS 和 Microsoft 在推理性能上持续加码,开源生态围绕 Agent 记忆、评估与安全快速演进。

🧭 核心速览

🚀 AWS 推出 P-EAGLE 并与 Cerebras 合作解耦推理架构

💻 Microsoft Azure 集成 Fireworks AI 实现高性能开源模型推理

🌐 Equinix 推出厂商无关的分布式 AI 覆盖 280 个数据中心

⭐ Context Gateway v0.5.2 通过历史摘要加速上下文处理

🔧 rails-llm-integration v1.0.0 将 Claude 技能引入 Rails 应用

🧬 NVIDIA Nemotron 3 Super 开源 120B 混合 Mamba-Transformer MoE

🔍 zer0dex 双层记忆在本地 Agent 中实现 91.2% 召回率

算力与云基础设施

🚀 AWS 推出 P-EAGLE 并行投机解码

根据 AWS 官方博客,AWS 发布 P-EAGLE(Parallel-EAGLE)——一种集成到 vLLM 的并行投机解码方法,通过并行验证提高吞吐量并降低延迟。该技术已在 Trainium 上部署,并通过 Bedrock 提供服务。

投机解码通过小模型预测大模型输出,并行验证可以进一步加速推理过程。P-EAGLE 是 AWS 在推理优化领域的持续投入。

🎯 AWS 与 Cerebras 合作推出解耦推理架构

根据 Amazon 新闻,AWS 和 Cerebras 宣布解耦推理架构:Trainium 负责预填充(prefill),Cerebras CS-3 负责解码(decode),该架构将独家在 Bedrock 上推出,预计性能提升一个数量级。

Prefill 和 Decode 是推理的两个不同阶段,对计算资源需求差异显著。解耦架构可以根据不同阶段特点优化硬件选择,这是推理架构设计的重要演进方向。

💻 Microsoft Azure 集成 Fireworks AI

根据 Azure 博客,Microsoft Foundry 集成 Fireworks AI 提供高性能开源模型推理,支持 serverless 按需计费或 PTU 预留,支持 DeepSeek V3.2 和 Qwen3 等模型。

Fireworks AI 以高性能推理服务著称,此次集成进一步扩展了 Azure 的开源模型生态,为企业提供更多推理选择。

🌐 Equinix 推出分布式 AI Hub

根据 PR Newswire,Equinix 推出厂商无关的分布式 AI Hub,通过 Fabric Intelligence 覆盖 280 个数据中心,并集成 Palo Alto Networks 提供实时安全防护。

分布式 AI Hub 解决企业在多地点部署 AI 基础设施的挑战,厂商无关设计避免供应商锁定。

💾 AIC 与 ScaleFlux 推出上下文存储平台

根据 National Today,AIC 和 ScaleFlux 推出推理上下文存储平台,通过 AIC F2032-G6、ScaleFlux NVMe SSD 和 NVIDIA 网络,将大 KV 缓存从 GPU 卸载。

KV 缓存占用大量 GPU 显存是推理成本的重要因素,上下文存储平台通过专用硬件降低 GPU 内存压力,提高推理效率。

开源生态

⭐ Context Gateway v0.5.2:历史摘要代理

根据 GitHub,Context Gateway v0.5.2(Compresr)是一个 Agent 代理,通过预计算历史摘要避免上下文窗口延迟,使用 Go 编写,开源发布。

长对话场景下,每次请求都携带完整历史导致延迟增加。Context Gateway 通过摘要预计算优化这一过程,是实用的工程优化方案。

🔧 rails-llm-integration v1.0.0:Rails + Claude

根据 GitHub,rails-llm-integration v1.0.0 提供 Rails 约定和服务对象用于结构化 LLM 功能,可直接作为 Claude Skill 运行。

该工具降低 Rails 应用集成 LLM 的门槛,通过约定优于配置的设计理念简化开发流程。

🧬 NVIDIA Nemotron 3 Super:120B 混合 MoE

根据 NVIDIA 开发者博客,NVIDIA 发布 Nemotron 3 Super,120B 参数混合 Mamba-Transformer MoE,支持 100 万 token 上下文,专为 Agent 推理设计,采用 NVIDIA Nemotron 开源模型许可证。

Mamba-Transformer 混合架构结合线性注意力和标准 Transformer 的优势,长上下文和大参数量为复杂 Agent 任务提供基础。

🤖 Mega-OS:38 个 Agent 的个人 OS 框架

根据 GitHub,Mega-OS 是基于 Claude Code 的个人 OS 框架,包含 38 个 Agent 分为五大类,通过 Git 持久化上下文。

个人 Agent 操作系统是 AI 的热门方向,Mega-OS 通过大量专业 Agent 和 Git 持久化提供本地化的 AI 辅助体验。

🔄 AutoContext:闭环知识更新系统

根据 GitHub,AutoContext 是闭环系统,评估运行、更新持久知识、蒸馏成功行为以降低执行成本。

持续学习和知识蒸馏是 Agent 长期运行的关键挑战,AutoContext 通过闭环机制自动优化。

💡 Meta COCONUT:潜在推理来源讨论

根据 Reddit 讨论,Meta 的 COCONUT 实验表明"潜在推理"可能来自课程训练,回收隐藏状态会损害 OOD 泛化。

COCONUT 是 Meta 关于模型推理能力的研究,社区实验揭示了其训练机制的关键细节。

⚖️ JudgeGPT:开源 LLM-as-a-Judge

根据 Reddit,JudgeGPT 是开源 LLM-as-a-Judge 工具,支持本地 Ollama 评估、思维链和 Prometheus 指标。

LLM-as-a-Judge 是评估 LLM 输出的常用方法,JudgeGPT 将其本地化并开源。

🛡️ Blender MCP 安全问题

根据 Reddit,Blender MCP 服务器存在任意执行、数据泄露链和提示注入风险,AgentSeal 检测器可识别问题。

MCP(Model Context Protocol)是 AI Agent 与外部工具交互的协议,安全性是关键挑战。

📜 SLANG:多 Agent 工作流声明式语言

根据 Reddit,SLANG 是多 Agent 工作流声明式语言,提供 stake/await/commit 原语,跨多个模型后端运行。

多 Agent 编排是复杂 AI 系统的核心问题,声明式语言简化工作流定义。

🔬 Tiny LLM 实用场景

根据 GitHub,Tiny LLM 社区仓库收集实用小模型工作流,展示小模型在实际场景中的应用。

小模型因部署成本低在边缘场景有重要价值,该仓库提供实用参考。

模型推理与 Serving

🧠 zer0dex 双层记忆实现 91.2% 召回率

根据 Reddit,zer0dex 双层记忆系统在本地 Agent 中实现 91.2% 召回率,对比 RAG 的 80.3%,使用压缩语义索引加 ChromaDB,完全离线。

Agent 记忆是持久化上下文的关键技术,双层记忆结合压缩和向量检索提供高召回率。

⚡ llama.cpp 性能对比 LMStudio

根据 Reddit,llama.cpp 在 Qwen 3.5 9B 上达到 4.6 tok/s,对比 LMStudio 的 2.4 tok/s,讨论涵盖编译、GPU 卸载和上下文大小优化。

本地推理性能影响用户体验,llama.cpp 作为底层库提供更高性能上限。

📱 Codey-v2 Android 端代码 Agent

根据 Reddit,Codey-v2 是 Android 端代码 Agent,提供长期记忆、自适应风格和热插拔模型,基于 llama.cpp 和 GGUF 构建。

端侧 AI 代理是重要方向,Codey-v2 展示在移动设备上构建本地编码 Agent 的可行性。

🔍 Infra Insights

本日核心趋势:推理加速和解耦架构Agent 记忆与评估工具成熟分布式企业 AI 基础设施路径清晰

云厂商通过并行投机解码和预填/解码解耦架构优化推理性能。开源工具链围绕 Agent 记忆和评估快速成熟,Equinix 分布式 AI Hub 为企业提供自托管路径选择。