AI Infra Dao

AI Infra Brief|大单签约、推理提速、务实工具(2026.04.12)

2026 年 4 月 12 日,AI 基础设施领域迎来多项重大签约:Meta 与 CoreWeave 扩展至 350 亿美元总承诺,阿里云与天翼云部署万卡国产真武集群,Rebellions 携手 SKT 与 Arm 打造主权推理服务器。推理优化方面,Sitecove SHIP 架构宣称实现 91% GPU 节省,MLPerf v6.0 多节点提交量增长 30%。开源生态同样活跃,PromptShield、NVIDIA AITune、ServerClaw 等工具集中涌现。

🧭 核心速览

💰 Meta × CoreWeave:210 亿美元扩展协议,锁定 NVIDIA Vera Rubin 芯片,总承诺达 ~350 亿美元

🇨🇳 阿里云 × 天翼云:韶关万卡真武 810E 集群,96GB HBM2e,规划十万片路线图

🇰🇷 Rebellions × SKT × Arm:RebelCard + Neoverse CSS V3 主权推理服务器,SKT 数据中心验证

⚡ Sitecove SHIP:91% GPU 节省、12× 加速,百万 Token 成本从 $49 降至 $4

📊 MLPerf Inference v6.0:多节点提交增长 30%,最大规模 72 节点/288 加速器

🛡️ PromptShield:开源 LLM 网关,内置 PII/密钥检测

🇬🇧 OpenAI 暂停英国 Stargate 项目:版权与能源价格双重压力

算力与云基础设施

💰 Meta 与 CoreWeave 签署 210 亿美元扩展协议,总承诺达 ~350 亿美元

根据 Cxodigitalpulse 报道,Meta 与 CoreWeave 签署了 210 亿美元的云基础设施扩展协议,协议覆盖 NVIDIA 下一代 Vera Rubin 芯片的早期访问权,合同期延长至 2032 年 12 月。加上此前 142 亿美元的合同,Meta 对 CoreWeave 的总承诺达到约 350 亿美元,主要用于推理和 Agentic AI 工作负载。

这是 AI 基础设施领域迄今最大的单笔云合同之一。Meta 对 CoreWeave 的持续加码表明:超大规模客户正在将算力来源多元化,不再依赖单一云厂商。Vera Rubin 的早期锁定意味着下一代 GPU 竞争已从芯片设计阶段延伸到产能预订阶段。

🇨🇳 阿里云与天翼云部署万卡真武 810E 集群,国产算力迈向十万级

根据 Intelligentliving 报道,阿里云与中国电信天翼云在韶关联合部署了 10,000 卡规模的真武 810E 加速器集群。真武 810E 配备 96GB HBM2e 内存,面向大模型训练和大批量推理场景,路线图规划将扩展至约 100,000 片。

万卡级国产芯片集群的部署是中国 AI 算力自研路线的重要里程碑。与 NVIDIA 生态不同,真武集群走的是"芯片-网络-云服务"全栈自研路线,阿里的规模优势使其有可能在这一路径上形成独立的技术生态。

🇰🇷 Rebellions、SK Telecom 与 Arm 合作开发主权推理服务器

根据 Rutlandherald 报道,韩国 AI 芯片公司 Rebellions 与 SK Telecom、Arm 达成合作,将 Arm 的 AGI CPU(Neoverse CSS V3)与 Rebellions 的 RebelCard 加速器(Rebel 100,配备 HBM3E)组合为推理服务器。该服务器将首先在 SKT 的 AI 数据中心完成验证,随后推向更广泛的市场。

Arm CPU + 专用加速器的异构推理架构正在成为行业主流选择之一。SKT 的参与为韩国电信行业提供了一条不依赖 NVIDIA 的主权 AI 基础设施路径。

⚡ Ciena:GPU 集群背后的光网络基石

根据 Bitget 报道,Ciena 作为 GPU 集群的核心光网络供应商获得关注,公司报告 33% 同比收入增长至 14.3 亿美元,积压订单达 70 亿美元。800G 可插拔光模块支撑着 GPU 互连带宽需求的持续增长。

GPU 集群规模扩大带来的网络瓶颈正在催生一个隐形的千亿级市场——光互连基础设施。Ciena 的业绩印证了一个趋势:AI 基础设施的投资正在从 GPU 向网络层外溢。

模型推理与 Serving

⚡ Sitecove SHIP 架构:91% GPU 节省、12× 加速

根据 Manilatimes 报道,澳大利亚团队 Sitecove 公布了 SHIP(Speculative Hierarchical Inference Pipeline)架构的早期测试结果:GPU 使用量减少高达 91%,推理速度提升 12 倍,每百万 Token 的成本从 49 美元降至 4 美元。

推理效率的量级提升是当前 AI 基础设施最核心的命题之一。如果 SHIP 架构的成果在大规模生产环境中可复现,这将从根本上改变 LLM 推理的成本结构。但早期数据需保持审慎,实际生产表现有待更多验证。

📊 MLPerf Inference v6.0:多节点提交增长 30%,规模创新高

根据 Rtinsights 报道,MLPerf Inference v6.0 基准测试结果显示多节点提交量同比增长 30%,最大提交规模达到 72 节点、288 个加速器。性能提升更多归因于软件优化(算子融合、量化)而非纯硬件升级,能效指标也在持续改善。

MLPerf 的趋势信号意义重大:软件优化正在超越硬件换代成为推理性能提升的主要驱动力。对于基础设施团队而言,这意味着优化投资回报率高于硬件采购。

🌐 GITEX Asia 2026:从建设转向变现,聚焦边缘推理

根据 Digitimes 报道,在 GITEX Asia 2026 大会上,行业领袖强调 AI 基础设施正在从大规模建设阶段转向变现阶段,边缘推理成为关键方向。Nokia 和 Blaize 展示了集成的网络与推理解决方案。

AI 基础设施从"建"到"用"的转折已经开始,边缘推理是第一站——将 AI 推理能力下沉到离用户最近的位置,既降低延迟又减少回传带宽成本。

开源生态

🛡️ PromptShield:开源 LLM 网关,内置隐私检测

根据 X 报道,PromptShield 是一个开源的 LLM 网关项目,内置 PII(个人身份信息)和密钥检测功能,运行在用户自有基础设施上。该项目为 AI 应用提供了一层安全和合规防护。

LLM 网关正在成为 AI 应用的标准基础设施组件——类似于 API 网关之于微服务时代。PromptShield 将隐私检测能力内置在网关层,是"安全左移"理念在 AI 领域的实践。

🔧 NVIDIA AITune:自动选择最快推理后端

根据 X 报道,NVIDIA 发布 AITune 工具,能够为 PyTorch 模型自动选择最快的推理后端。该工具降低了开发者选择和配置推理框架的认知负担。

推理后端的选择(TensorRT、ONNX Runtime、vLLM、Triton 等)一直是部署环节的痛点。NVIDIA 用自动化工具解决这一问题,符合其降低 CUDA 生态使用门槛的一贯策略。

⭐ ServerClaw:可分叉的 IaC,70+ 自托管服务一键部署

根据 X 报道,ServerClaw 是一个可分叉的基础设施即代码项目,可在 Debian 13 上部署 70 多个自托管服务,专为 AI 编码助手的使用场景设计。

ServerClaw 的定位是"AI 编码的本地基础设施脚手架"——开发者一键获得一套完整的自托管工具链,包括代码托管、CI/CD、监控等。这反映了 AI 编码工具对开发基础设施的深远影响。

🌐 Cloudflare Browser Rendering 暴露 Chrome DevTools 协议给 MCP 客户端

根据 X 报道,Cloudflare 的 Browser Rendering 服务现在向 MCP(Model Context Protocol)客户端暴露 Chrome DevTools Protocol,使 AI Agent 能够执行更丰富的浏览器自动化任务。

浏览器自动化是 AI Agent 的关键能力缺口之一。Cloudflare 将 CDP 通过 MCP 开放,意味着 Agent 可以在云端安全地操控浏览器——这是一个重要的基础设施能力补全。

⭐ GitHub 趋势项目精选

  • MUXIGitHub):面向 AI 应用的生产级基础设施框架,定位为 AI 应用的"后端即服务"。
  • OpenSpaceGitHub):Agent 框架,强调稳定性、接地性、MCP 服务和持久化。
  • free-ai-toolsGitHub):精选的免费/低成本 AI 工具、API、IDE、Agent 和基础设施资源列表。

社区动态

🏢 CoreWeave 被视为锁定 Top 10 LLM 开发者中 9 家的算力供应商

根据 X 的讨论,CoreWeave 已被广泛视为为全球排名前 10 的 LLM 开发者中 9 家提供算力基础设施的供应商。这一数据侧面印证了 CoreWeave 在 AI 云服务市场的崛起速度。

💡 “混乱的早期篇章”:Linux 内核类比当前 LLM 基础设施

根据 X 的讨论,社区将当前 LLM 基础设施的状态类比为 Linux 内核早期——接口混乱、标准未定、但创新蓬勃。这一类比揭示了行业处于"标准建立前的快速迭代期"。

📊 Nebius Group(NBIS)被标记为纯 AI 基础设施标的

根据 X 的分析,Nebius Group 被标记为市场上少见的纯 AI 基础设施上市公司,其业务完全围绕 GPU 云和 AI 基础设施服务。

🔧 Reddit 社区热点

  • Windows CLI for GGUF + TurboQuant:本地 LLM 社区推出了 Windows 平台的 GGUF 模型命令行推理工具,集成 TurboQuant 量化支持。
  • 零数据保留配置:讨论如何在商用 LLM 服务中配置零数据保留策略,强调隐私合规已成为必选项而非可选项。

监管与政策

🇬🇧 OpenAI 暂停英国 Stargate 项目,版权与能源价格成双重障碍

根据 CNBC 报道,OpenAI 已暂停其英国 Stargate 项目,原因包括 AI 版权法规的不确定性和英国偏高的工业电力价格。该项目原计划初期部署 8,000 块 GPU,并扩展至 31,000 块。

OpenAI 在英国的退缩为全球 AI 基础设施部署敲响警钟:算力布局不仅取决于技术和资金,还受到监管框架和能源成本的硬约束。版权法规的模糊地带正在成为跨国算力部署的隐性壁垒。

🔍 Infra Insights

本日核心趋势:超大规模算力合同从百亿级向三百亿级跃升推理效率优化进入量级突破阶段主权算力诉求推动多元芯片生态加速

Meta-CoreWeave 的 350 亿美元总承诺是一个分水岭——单一客户的算力采购规模已经相当于一个小国的年度科技预算。与此同时,Sitecove SHIP 宣称的 91% GPU 节省如果得到验证,将从根本上改写推理经济学的方程。但更值得关注的结构性变化是:从韩国 Rebellions 到中国真武芯片,主权算力的多元化正在全球范围内加速。OpenAI 在英国的暂停则提醒我们,AI 基础设施的全球化布局仍面临监管和能源的现实边界。