AI Infra Dao

AI Infra Brief|千亿级合作与推理加速(2026.03.06)

2026 年 3 月 6 日,AI 基础设施迎来多项重磅合作,推理性能和成本优化取得突破,主权 AI 和开源生态持续演进。

🧭 核心速览

🤝 AMD 与 Meta 达成 1000 亿美元算力合作

🚀 CoreWeave 为 Perplexity 部署 GB200 集群

💰 Akamai 声称推理成本降低 86%

🔧 Together AI 发布 FlashAttention-4 与 ThunderAgent

🌐 红帽与 Telenor 在挪威建设主权 AI 工厂

⚡ Elasticsearch 搜索速度提升 8 倍

算力与云基础设施

🤝 AMD 与 Meta 签署 1000 亿美元多年协议,瞄准 6 GW AI 算力

根据 Techspective 报道,AMD 与 Meta 达成多年期 1000 亿美元合作协议,目标部署高达 6 GW 的 AI 算力,联合设计 MI450 GPU 和第六代 EPYC CPU 用于 Meta 的 Helios 机架,首批 1 GW 预计 2026 年下半年交付。

这是 AMD 在 AI 算力市场的里程碑式合作,标志着数据中心级 GPU 格局重塑。

🚀 CoreWeave 签约 Perplexity,部署 NVIDIA GB200 NVL72 集群

根据 Mlq 报道,CoreWeave 签署多年协议,通过 CoreWeave Kubernetes Service 和 W&B Models 为 Perplexity 提供基于 NVIDIA GB200 NVL72 集群的推理服务,这是首批大规模 GB200 部署之一。

GB200 NVL72 是 NVIDIA 下一代推理旗舰,通过 NVLink-C2C 互连 72 个 Blackwell GPU。

💰 Akamai 部署数千块 Blackwell GPU,推理成本降低 86%

根据 Datacenterknowledge 报道,Akamai 开始在 4000 多个地点部署数千块 NVIDIA Blackwell GPU、DPU 和服务器,声称延迟比超大规模云厂商低 2.5 倍,推理成本降低 86%。

边缘 CDN 巨头入局 AI 推理,验证了分布式推理的经济性。

⚡ NVIDIA Blackwell Ultra 推理性能提升 50 倍

根据 X 平台 消息,NVIDIA 强调 Blackwell Ultra 推理性能提升高达 50 倍,成本降低 35 倍,旨在实现实时 Agent 体验。

模型推理与 Serving

🔧 Together AI 发布 FlashAttention-4、ThunderAgent 和 ATLAS-2

根据 Together AI 官方博客,FlashAttention-4 相比 Triton 提升 2.7 倍,相比 cuDNN 9.13 提升 1.3 倍;开源 ThunderAgent 吞吐量提升 1.5–3.6 倍,磁盘使用降低 4.2 倍;ATLAS-2 持续吞吐量提升 40%。

💡 Distil Labs:小型蒸馏模型可降低 10 倍推理成本

根据 Distil Labs 博客,通过小型蒸馏专家模型可实现 10 倍成本降低,例如 Text2SQL 从每百万请求 24 美元降至 3 美元。

🏭 华为发布 AI 数据平台,集成知识库、KV 缓存和内存库

根据 Digitimes 报道,华为推出 AI 数据平台,集成知识库、KV 缓存和内存库,报告检索准确率 95% 以上,支持智能 KV 缓存分层用于多 Agent 推理。

📊 Vast Data 推出 CUDA 加速 AI 数据栈

根据 Storagenewsletter 报道,Vast Data 推出 CUDA 加速 AI 数据栈,包含 cuVS 向量搜索、NVIDIA CMX 和 BlueField-4 DPU,加速共享 KV 缓存访问和长上下文多 Agent 服务的 TTFB。

数据路径与边缘计算

🔍 Elasticsearch 搜索速度提升 8 倍,支持 bfloat16 向量

根据官方报道,Elasticsearch 相比 OpenSearch 搜索速度提升高达 8 倍,9.3 版本支持 bfloat16 向量,新增自适应早期终止,通过 NVIDIA cuVS 向量索引速度提升高达 12 倍。

🗄️ Oracle AI Database 26ai 添加数据库内向量搜索

根据 Dbta 报道,Oracle AI Database 26ai 添加数据库内 AI 向量搜索,实现更安全、运维更低的语义检索。

🚀 KX 推出 KDB.AI Server Edition

根据 Hpcwire 报道,KX 推出 KDB.AI Server Edition,支持高性能 RAG,具备多模态支持和 LangChain 兼容性。

国家与产业 AI

🇳🇴 红帽与 Telenor 在挪威建设主权 AI 工厂

根据 Datacenterknowledge 报道,红帽与 Telenor 在挪威基于 OpenShift AI 和 H100 DGX 推出主权 AI 工厂,支持 RAG 和 Agent 工作流,使用 LlamaStack。

🌍 VEON 与 MeetKai 探索主权本地部署 AI

根据 Taiwannews 报道,VEON 与 MeetKai 签署备忘录,探索在 VEON 市场部署主权、本地化 AI。

📱 三星与沃达丰验证欧洲首个 AI 原生 vRAN 呼叫

根据 Samsung News 报道,三星与沃达丰基于 Intel Xeon 6 验证欧洲首个 AI 原生 vRAN 呼叫,使用 CognitiV NOS 实现 AI 驱动自动化。

📡 中兴通讯推出 AIR MAX,打造 AI 时代移动网络

根据 Lightreading 报道,中兴通讯 AIR MAX 方案聚焦 AI 原生移动网络,实现能效和精度提升,包含多 Agent 工具(Co-Sight 2.0、Co-Claw)。

开源生态

🍎 Qwen3.5-122B-A10B MoE 可在 Apple M3 Ultra 本地运行

根据 X 平台 消息,Qwen3.5-122B-A10B MoE 通过 MLX 在 Apple M3 Ultra 本地运行,采用混合 DeltaNet/线性注意力,支持 100 万上下文和更小 KV 缓存,社区指出成本优势。

🔧 MistralAI SDK 采用增长,改进 KV 缓存亲和性

根据 X 平台 消息,MistralAI SDK 采用率增长,主要改进包括 KV 缓存亲和性、GPT-5.4 支持和修复,社区关注延迟和稳定性。

🛠️ 多个 Agent 工具发布

根据社区报道,多个开源项目发布:Paperclip(Agent 编排)、AI-DevOps-Orchestrator(MLOps)、NebulaGraph(知识图谱)、Jido 2.0(Elixir Agents)、Multicorn Shield(Agent 治理)、GLiNER2(CPU 优先信息抽取)、OpenTitan 量产 Chromebooks、Tech 42 的 Agent Starter Pack 上架 AWS Marketplace。

🔄 vLLM 和 vLLM-Omni 常规维护

根据 GitHubGitHub,vLLM 和 vLLM-Omni 接受常规维护,vLLM-Omni 面向全模态模型支持和优化。

🔍 Infra Insights

本日核心趋势:千亿级算力合作验证长期需求推理优化从算法走向硬件 - 软件协同设计主权 AI 在欧洲加速落地

AMD 与 Meta 的 1000 亿美元协议,是继 NVIDIA 之后最大规模的 AI 算力合作,6 GW 目标相当于数百万块 GPU,验证了云厂商对 AI 算力的长期锁定。Akamai 86% 成本降低和 Together AI 多项优化,共同指向同一方向:推理竞争从模型精度转向单位美元性能。

华为和 Vast Data 的 AI 数据平台、Elasticsearch 的 8 倍搜索加速,显示硬件 - 软件协同设计正在渗透到数据层。红帽 - 挪威、三星 - 沃达丰的主权 AI 项目,表明欧洲正在通过本地部署和行业标准,构建独立的 AI 基础设施生态。