AI Infra Dao

AI Infra Brief|纪录级资本支出与内存/注意力机制突破(2026.02.05)

2026 年 2 月 5 日,AI 基础设施领域迎来前所未有的资本承诺和技术突破。Alphabet 和 Meta 公布了创纪录的 2026 年 AI 基础设施预算——分别高达 1,750-1,850 亿美元和 1,150-1,350 亿美元,较此前投资翻倍不止。与此同时,研究人员在内存效率方面取得突破,O(1) 注意力机制相比 FlashAttention v2 减少 97-99% 内存使用,而来自 xAI、Qwen 等机构的新模型进一步拓展了视频生成、代码生成和科学推理的性能边界。

🧭 核心速览

💰 Alphabet 计划 2026 年投入 1,750-1,850 亿美元建设 AI 基础设施,较 2025 年的 920 亿美元翻倍以上

💻 Meta 目标 2026 年投入 1,150-1,350 亿美元 AI 基础设施,包括为广告排名模型 GPU 翻倍

⚡ 基于 Waller 算子的 O(1) 内存注意力机制相比 FlashAttention v2 减少 97-99% 内存

🎥 xAI Grok Imagine 1.0:10 秒 720p 视频生成,登顶 Image-to-Video 排行榜

🔧 Qwen3-Coder-Next:稀疏 MoE 架构,800 亿总参数、每 token 激活 30 亿

🧠 Intern-S1-Pro:1 万亿参数 MoE 模型专注科学推理,集成 vLLM 和 SGLang

🌐 PolarGrid 边缘 AI 原型相比中心化超大规模云降低 70% 延迟

🔒 微软工具无需重新训练即可检测开源权重 LLM 中的后门

巨额资本计划

💰 Alphabet 1,750 亿美元 AI 基础设施预算预示多年建设周期

根据 CNBC 报道,Alphabet 计划 2026 年投入 1,750-1,850 亿美元建设 AI 基础设施,较 2025 年的 920 亿美元翻倍以上,主要用于满足 DeepMind 算力和云服务需求增长。

这一史无前例的预算确认了超大规模云厂商正进入多年基础设施扩张阶段。当单一公司计划每年近 2,000 亿美元 AI 基础设施支出时,整个供应链——GPU 制造、数据中心建设、网络设备和电力基础设施——都必须相应扩容。这笔投资同时针对 DeepMind 的模型训练和 Google Cloud 的企业 AI 服务,表明 AI 收入正成为云业务的重要组成。多年资本承诺也预示 AI 算力供需紧张态势将在 2026-2027 年持续。

💻 Meta 1,150 亿美元 AI 投资,为广告排名 GPU 翻倍

根据 The Motley Fool 报道,Meta 目标 2026 年投入 1,150-1,350 亿美元 AI 基础设施,包括计划为广告排名模型 GPU 翻倍。

Meta 的投资模式揭示两大战略优先级:(1) 货币化基础设施——为广告排名 GPU 翻倍表明 AI 正成为收入生成的核心,而非仅仅是产品特性;(2) 垂直整合——从数据中心到模型到推荐系统的全栈控制。当广告排名(Meta 的核心收入引擎)需要 GPU 密集型 LLM,表明 AI 能力正从实验性转向生产关键。1,150-1,350 亿美元的预算范围也显示 Meta 在构建加速部署的选项,取决于 AI 产品采用和竞争动态。

🚀 Cerebras 融资 10 亿美元估值 230 亿美元,称 LLM 响应速度提升 15 倍

根据 PYMNTS 报道,Cerebras 完成 10 亿美元 F 轮融资,估值达 230 亿美元,称相比 GPU 系统可将 LLM 响应时间提速最多 15 倍,并与 OpenAI 达成集成合作。

Cerebras 的估值和性能声称凸显了 AI 算力的另一条路径——晶圆级集成 vs GPU 集群。如果 15 倍延迟改进在生产规模成立,这可能使实时推理、在线学习和交互式 AI 等新用例成为可能,而这些在 GPU 系统上不切实际。与 OpenAI 的集成合作尤为关键,表明领先 AI 实验室正积极寻求 NVIDIA GPU 的替代方案用于生产工作负载。230 亿美元的估值显示投资者押注专用 AI 硬件能在 NVIDIA 生态主导地位下获得可观份额。

基础设施创新

⚡ O(1) 内存注意力机制实现 97-99% 内存削减

根据 GitHub 发布,研究人员通过 Waller 算子开发了 O(1) 内存注意力机制,在 512-262K token 范围内仅使用约 0.001 GB 内存,相比 H100 上的 FlashAttention v2 实现 97-99% 内存削减。

这一突破性进展从根本上改变了注意力机制的内存 - 精度权衡。传统注意力随序列长度二次扩展,使长上下文推理成本高得令人望而却步。O(1) 内存在 512 到 262K token 范围内保持恒定,将上下文长度与内存需求解耦,使百万 token 上下文的实用部署成为可能,无需特殊硬件。如果这种方法在模型架构和用例中通用化,我们可能看到在生产系统中的快速采用,尤其是常见长文档和代码库的企业级 RAG 应用。

🌐 PolarGrid 边缘 AI 原型降低 70% 延迟

根据 Evrim Ağacı 报道,PolarGrid 边缘 AI 原型——在用户附近分布 GPU——相比中心化超大规模云报告 70% 延迟削减。

PolarGrid 的结果验证了"边缘推理"作为中心化训练的补充。虽然训练集群受益于大规模和高速互联,但推理通常优先考虑延迟而非批量大小。将 GPU 分布至离用户更近的位置——基站、零售店或工厂车间——可为实时应用(自动驾驶系统、工业控制、交互式 AI)显著减少往返延迟。70% 的改进表明边缘 AI 可能成为延迟敏感工作负载的标准,尤其是当模型规模使数据传输成本主导推理延迟时。

🔧 英特尔定位数据中心 GPU 为 NVIDIA 第二来源

根据 Network World 报道,英特尔正将其数据中心 GPU 定位为 NVIDIA 的第二来源,强调 CPU/GPU/网络/内存的紧密集成。

英特尔的"第二来源"策略瞄准寻求供应链多元化的企业客户。通过 GPU 与现有 CPU、网络(Gaudi)和内存(CXL)产品组合集成,英特尔可提供垂直优化平台,与 NVIDIA 的 GPU 中心方法形成差异。对于担心供应商锁定和供应安全的企业,拥有来自英特尔——已是可信基础设施供应商——的可行替代方案降低了切换成本。这一策略的成功取决于软件生态成熟度(oneAPI vs CUDA)和实际工作负载中的性能持平。

模型与研究

🎥 xAI Grok Imagine 1.0:10 秒 720p 视频生成

根据 X 发布,xAI 发布 Grok Imagine 1.0,支持 10 秒 720p 视频生成、改进音频、30 天内生成 12.45 亿视频、Image-to-Video Arena 排名第一,相比前版本成本降低 5 倍。

Grok Imagine 1.0 的规格使其跻身领先视频生成模型行列。10 秒 720p 视频覆盖营销、教育和内容创作的实用用例。5 倍成本削减尤为重要——这表明视频生成架构的效率快速提升,而该领域历史上计算密集。Image-to-Video Arena 排名第一表明相比既定玩家(如 OpenAI Sora 和 Google Veo)具有竞争力质量。12.45 亿视频生成指标表明生产规模使用,而非仅仅是研究原型。

🔧 Qwen3-Coder-Next:面向代码 Agent 工作流的稀疏 MoE

根据 Reddit 讨论,Qwen3-Coder-Next 采用稀疏 MoE 架构,800 亿总参数、每 token 激活 30 亿,在 80 万可验证任务上训练,在 SWE-Bench Pro 上表现强劲,专注代码 Agent 工作流。

稀疏 MoE 设计(800 亿总、30 亿激活 = 3.75% 激活率)针对代码用例优化,代码补全和编辑仅需局部上下文理解。在 80 万可验证任务上训练——可能来自竞技编程、代码审查和测试驱动开发——使模型专注正确性而非流畅性。SWE-Bench Pro 强劲表现表明模型可处理真实代码库,而非仅合成问题。代码 Agent 专注表明架构优化针对工具使用、多步推理和代码库规模上下文。

🧠 Intern-S1-Pro:1 万亿参数 MoE 专注科学推理

根据 X 发布,Intern-S1-Pro 是 1 万亿参数 MoE 模型,优化用于科学推理,集成 vLLM 和 SGLang 推理引擎。

1 万亿参数规模使 Intern-S1-Pro 成为最大的开源模型之一,目标领域是准确性重于延迟的场景——科学研究、工程分析和复杂推理任务。与 vLLM 和 SGLang 集成表明专注生产部署,而非仅研究基准。科学推理专业化表明训练数据和架构选择优化用于数学推理、文献综合和假设评估——不同于优化对话流畅性的通用模型。

安全与采用

🔒 微软工具无需重新训练检测开源权重 LLM 后门

根据 Microsoft Research 发布,微软开发了无需重新训练即可检测开源权重 LLM 后门的工具,识别注意力机制、数据泄露和触发签名中的恶意模式。

该工具解决了 LLM 安全的关键缺口——从 Hugging Face 等仓库下载的开源权重模型可能包含由特定触发短语激活的恶意后门。无需重新训练(这将需要大规模计算)即可检测后门,使企业采用者的安全评估变得实用。随着开源模型接近闭源性能,安全验证对于生产部署变得必要,尤其是受监管行业和高风险应用。

🌳 PromptForest 集成改进提示注入检测

根据 GitHub 发布,PromptForest 集成技术在减少模型参数的同时改进了提示注入检测的校准,解决了 LLM 驱动应用的关键安全挑战。

提示注入——用户操纵系统提示绕过安全防护——是 LLM 应用的主要安全关切。PromptForest 的方法——减少参数同时改进校准——表明对抗检测的效率增益。更好的校准(良好校准的概率)减少安全系统中的假阳性和假阴性,使自动化审核更实用。随着 LLM 驱动更多面向客户的应用,提示注入检测成为 LLM 应用的事实标准基础设施。

🔍 AI Slop Detector:95% 准确率仅需 242 MB 模型

根据 Reddit 讨论,AI Slop Detector 是离线浏览器扩展,使用微调的 Gemma 3 270M 模型(242 MB),报告检测 AI 生成内容准确率 95%。

AI Slop Detector 的准确率和规模(242 MB)展示了一个重要趋势:任务特定小模型可在窄任务上匹敌通用大模型。95% 准确率与 242 MB 可在浏览器中离线运行的模型,使内容检测在大规模上实用——无需 API 调用、无数据泄露、无延迟。这种"小模型特定任务"模式可能会变得普遍,因为企业部署数十个专用模型 alongside 一两个通用基础模型。

🔍 Infra Insights

今日新闻揭示了 AI 基础设施的两个融合趋势:前所未有的资本承诺效率突破

Alphabet 和 Meta 合计 2,900-3,200 亿美元的 2026 年 AI 基础设施计划支出表明超大规模厂商正押注 AI 算力需求将增长数年而非数季度。这种多年可见性使供应链规划成为可能——GPU 制造、数据中心建设和电力基础设施可以有信心地扩容。然而,大规模资本密集度也提高了进入门槛;只有 Alphabet/Meta 规模资产负债表的公司才能在模型训练和部署的前沿竞争。

同时,内存优化(O(1) 注意力)、边缘推理(70% 延迟削减)和模型效率(稀疏 MoE、小任务特定模型)的技术突破正在降低 AI 工作负载所需算力。这些效率增益使 AI 获取民主化——较小公司可在无需超大规模预算的情况下部署竞争系统。

(1) 在位者纪录级 capex 和 (2) 所有人可及的效率突破的结合,表明 AI 基础设施正进入一个资本密集度和技术效率并行推进的阶段——前沿参与者构建大规模,而更广泛生态系统从复合效率增益中受益。