AI Infra Brief｜千亿级合作与推理加速（2026.03.06）

2026 年 3 月 6 日，AI 基础设施迎来多项重磅合作，推理性能和成本优化取得突破，主权 AI 和开源生态持续演进。

🧭 核心速览

🤝 AMD 与 Meta 达成 1000 亿美元算力合作

🚀 CoreWeave 为 Perplexity 部署 GB200 集群

💰 Akamai 声称推理成本降低 86%

🔧 Together AI 发布 FlashAttention-4 与 ThunderAgent

🌐 红帽与 Telenor 在挪威建设主权 AI 工厂

⚡ Elasticsearch 搜索速度提升 8 倍

算力与云基础设施

🤝 AMD 与 Meta 签署 1000 亿美元多年协议，瞄准 6 GW AI 算力

根据 Techspective 报道，AMD 与 Meta 达成多年期 1000 亿美元合作协议，目标部署高达 6 GW 的 AI 算力，联合设计 MI450 GPU 和第六代 EPYC CPU 用于 Meta 的 Helios 机架，首批 1 GW 预计 2026 年下半年交付。

这是 AMD 在 AI 算力市场的里程碑式合作，标志着数据中心级 GPU 格局重塑。

🚀 CoreWeave 签约 Perplexity，部署 NVIDIA GB200 NVL72 集群

根据 Mlq 报道，CoreWeave 签署多年协议，通过 CoreWeave Kubernetes Service 和 W&B Models 为 Perplexity 提供基于 NVIDIA GB200 NVL72 集群的推理服务，这是首批大规模 GB200 部署之一。

GB200 NVL72 是 NVIDIA 下一代推理旗舰，通过 NVLink-C2C 互连 72 个 Blackwell GPU。

💰 Akamai 部署数千块 Blackwell GPU，推理成本降低 86%

根据 Datacenterknowledge 报道，Akamai 开始在 4000 多个地点部署数千块 NVIDIA Blackwell GPU、DPU 和服务器，声称延迟比超大规模云厂商低 2.5 倍，推理成本降低 86%。

边缘 CDN 巨头入局 AI 推理，验证了分布式推理的经济性。

⚡ NVIDIA Blackwell Ultra 推理性能提升 50 倍

根据 X 平台消息，NVIDIA 强调 Blackwell Ultra 推理性能提升高达 50 倍，成本降低 35 倍，旨在实现实时 Agent 体验。

模型推理与 Serving

🔧 Together AI 发布 FlashAttention-4、ThunderAgent 和 ATLAS-2

根据 Together AI 官方博客，FlashAttention-4 相比 Triton 提升 2.7 倍，相比 cuDNN 9.13 提升 1.3 倍；开源 ThunderAgent 吞吐量提升 1.5–3.6 倍，磁盘使用降低 4.2 倍；ATLAS-2 持续吞吐量提升 40%。

💡 Distil Labs：小型蒸馏模型可降低 10 倍推理成本

根据 Distil Labs 博客，通过小型蒸馏专家模型可实现 10 倍成本降低，例如 Text2SQL 从每百万请求 24 美元降至 3 美元。

🏭 华为发布 AI 数据平台，集成知识库、KV 缓存和内存库

根据 Digitimes 报道，华为推出 AI 数据平台，集成知识库、KV 缓存和内存库，报告检索准确率 95% 以上，支持智能 KV 缓存分层用于多 Agent 推理。

📊 Vast Data 推出 CUDA 加速 AI 数据栈

根据 Storagenewsletter 报道，Vast Data 推出 CUDA 加速 AI 数据栈，包含 cuVS 向量搜索、NVIDIA CMX 和 BlueField-4 DPU，加速共享 KV 缓存访问和长上下文多 Agent 服务的 TTFB。

数据路径与边缘计算

🔍 Elasticsearch 搜索速度提升 8 倍，支持 bfloat16 向量

根据官方报道，Elasticsearch 相比 OpenSearch 搜索速度提升高达 8 倍，9.3 版本支持 bfloat16 向量，新增自适应早期终止，通过 NVIDIA cuVS 向量索引速度提升高达 12 倍。

🗄️ Oracle AI Database 26ai 添加数据库内向量搜索

根据 Dbta 报道，Oracle AI Database 26ai 添加数据库内 AI 向量搜索，实现更安全、运维更低的语义检索。

🚀 KX 推出 KDB.AI Server Edition

根据 Hpcwire 报道，KX 推出 KDB.AI Server Edition，支持高性能 RAG，具备多模态支持和 LangChain 兼容性。

国家与产业 AI

🇳🇴 红帽与 Telenor 在挪威建设主权 AI 工厂

根据 Datacenterknowledge 报道，红帽与 Telenor 在挪威基于 OpenShift AI 和 H100 DGX 推出主权 AI 工厂，支持 RAG 和 Agent 工作流，使用 LlamaStack。

🌍 VEON 与 MeetKai 探索主权本地部署 AI

根据 Taiwannews 报道，VEON 与 MeetKai 签署备忘录，探索在 VEON 市场部署主权、本地化 AI。

📱 三星与沃达丰验证欧洲首个 AI 原生 vRAN 呼叫

根据 Samsung News 报道，三星与沃达丰基于 Intel Xeon 6 验证欧洲首个 AI 原生 vRAN 呼叫，使用 CognitiV NOS 实现 AI 驱动自动化。

📡 中兴通讯推出 AIR MAX，打造 AI 时代移动网络

根据 Lightreading 报道，中兴通讯 AIR MAX 方案聚焦 AI 原生移动网络，实现能效和精度提升，包含多 Agent 工具（Co-Sight 2.0、Co-Claw）。

开源生态

🍎 Qwen3.5-122B-A10B MoE 可在 Apple M3 Ultra 本地运行

根据 X 平台消息，Qwen3.5-122B-A10B MoE 通过 MLX 在 Apple M3 Ultra 本地运行，采用混合 DeltaNet/线性注意力，支持 100 万上下文和更小 KV 缓存，社区指出成本优势。

🔧 MistralAI SDK 采用增长，改进 KV 缓存亲和性

根据 X 平台消息，MistralAI SDK 采用率增长，主要改进包括 KV 缓存亲和性、GPT-5.4 支持和修复，社区关注延迟和稳定性。

🛠️ 多个 Agent 工具发布

根据社区报道，多个开源项目发布：Paperclip（Agent 编排）、AI-DevOps-Orchestrator（MLOps）、NebulaGraph（知识图谱）、Jido 2.0（Elixir Agents）、Multicorn Shield（Agent 治理）、GLiNER2（CPU 优先信息抽取）、OpenTitan 量产 Chromebooks、Tech 42 的 Agent Starter Pack 上架 AWS Marketplace。

🔄 vLLM 和 vLLM-Omni 常规维护

根据 GitHub GitHub，vLLM 和 vLLM-Omni 接受常规维护，vLLM-Omni 面向全模态模型支持和优化。

🔍 Infra Insights

本日核心趋势：千亿级算力合作验证长期需求、推理优化从算法走向硬件 - 软件协同设计、主权 AI 在欧洲加速落地。

AMD 与 Meta 的 1000 亿美元协议，是继 NVIDIA 之后最大规模的 AI 算力合作，6 GW 目标相当于数百万块 GPU，验证了云厂商对 AI 算力的长期锁定。Akamai 86% 成本降低和 Together AI 多项优化，共同指向同一方向：推理竞争从模型精度转向单位美元性能。

华为和 Vast Data 的 AI 数据平台、Elasticsearch 的 8 倍搜索加速，显示硬件 - 软件协同设计正在渗透到数据层。红帽 - 挪威、三星 - 沃达丰的主权 AI 项目，表明欧洲正在通过本地部署和行业标准，构建独立的 AI 基础设施生态。