AI Infra Brief｜吞吐量突破与超轮融资重塑 AI 基础设施（2026.02.13）

2026 年 2 月 13 日，AI 基础设施领域迎来吞吐量突破与超轮融资的双重浪潮。从推理成本 8 倍降低到 300 亿美元融资，从专用推理架构到全自动驾驶运营，行业正在通过技术创新和资本注入全面提升 AI 容量与性能。

🧭 核心速览

⚡ Nvidia 推出动态内存稀疏化，推理成本降低 8 倍，吞吐提升 5 倍

🔄 Together AI 发布 CPD 架构，长上下文应用吞吐提升 35-40%

🚀 OpenAI 发布 GPT-5.3-Codex-Spark，实时编码超 1000 tok/s

💰 Anthropic 融资 300 亿美元，估值 3800 亿（历史最大）

💰 Nscale 获 14 亿美元债务融资，部署 20 万颗 NVIDIA GB300

🌐 Cisco 推出 Silicon One G300（102.4 Tbps）AI 原生网络

🛒 AuraSell 推出 AI 原生 GTM OS，统一营销销售工作流

🤖 Monaco 融资 3500 万美元，构建 AI 原生销售平台

基础设施突破

⚡ Nvidia 推出动态内存稀疏化，推理成本降低 8 倍，吞吐提升 5 倍

根据 VentureBeat 报道，Nvidia 推出动态内存稀疏化技术，压缩 KV 缓存，将推理内存成本降低 8 倍，在 Qwen3-8B 上实现单服务器吞吐提升 5 倍，同时保持与原始模型一致的准确率。该技术通过 KVPress 库发布，兼容 Hugging Face 和 FlashAttention。

推理成本优化是 AI 落地化的关键，Nvidia 的技术突破为长上下文推理提供了新路径。

🔄 Together AI 发布 CPD 架构，长上下文应用吞吐提升 35-40%

根据 MEXC 报道，Together AI 揭出缓存感知预填充 - 解码分离架构（CPD），将推理拆分为专用节点类型，采用三级 KV 缓存层次结构，在 NVIDIA B200 GPU 上为长上下文应用实现 35-40% 的吞吐提升。

推理架构专业化是提升性能的重要方向，CPD 通过硬件与软件协同优化实现突破。

🚀 OpenAI 发布 GPT-5.3-Codex-Spark，实时编码超 1000 tok/s

根据 OpenAI 官方博客，OpenAI 发布 GPT-5.3-Codex-Spark 实时编码模型，在 Cerebras WSE-3 上实现超 1000 tokens/秒推理速度，通过持久化 WebSockets 将往返开销降低 80%。

实时编码是 AI 辅助编程的重要场景，专用硬件与模型协同实现吞吐量突破。

融资与合作

💰 Anthropic 融资 300 亿美元，估值 3800 亿（历史最大）

根据 Anthropic 官方公告，Anthropic 完成 300 亿美元 G 轮融资，投后估值达 3800 亿美元，资金用于扩展基础设施和前沿研究，计算资源多元化覆盖 AWS Trainium、Google TPU 和 NVIDIA GPU。

这是 AI 基础设施领域迄今规模最大的融资之一，反映资本市场对 AI 长期增长的信心。

💰 Nscale 获 14 亿美元债务融资，部署 20 万颗 NVIDIA GB300

根据 Nscale 新闻稿，Nscale 签署 14 亿美元递延提取定期贷款（以 GPU 为担保），将在挪威、葡萄牙、冰岛和英国的计算中心部署约 20 万颗 NVIDIA GB300 GPU。

以 GPU 为担保的债务融资是 AI 基础设施领域的新兴模式，Nscale 正在欧洲建设大规模 AI 计算集群。

🌐 Cisco 推出 Silicon One G300（102.4 Tbps）AI 原生网络

根据 Markets Chronicle 报道，Cisco 强调 AI 原生基础设施举措：Silicon One G300（102.4 Tbps）、800G/1.6T 液冷交换、以及基于 Splunk 的 AgenticOps。

网络是 AI 数据中心的关键瓶颈，Cisco 的 AI 原生网络产品线瞄准 AI 集群的互联需求。

📧 Sinch 与 Lovable 合作，将 Mailgun 规模通信嵌入 AI 原生应用

根据 The Fast Mode 报道，Sinch 与 Lovable 建立合作伙伴关系，将 Mailgun 规模的通信能力嵌入 Lovable Cloud，赋能 AI 原生应用。

通信基础设施是 AI 应用落地的重要环节，Sinch 与 Lovable 的合作降低了 AI 应用的通信集成门槛。

AI 原生平台

🛒 AuraSell 推出 AI 原生 GTM OS，统一营销销售工作流

根据 SiliconAngle 报道，AuraSell 发布 AI 原生 GTM（Go-To-Market）操作系统，基于 Salesforce/HubSpot 构建，统一销售、营销和客户成功工作流。

AI 原生平台正在从工具层面上升到操作系统层面，AuraSell 的 GTM OS 面向商业流程的 AI 原生化。

🤖 Monaco 融资 3500 万美元，构建 AI 原生销售平台

根据 The AI Insider 报道，Monaco 从隐身模式脱颖而出，完成 3500 万美元 A 轮融资，构建面向初创公司的端到端 AI 原生销售平台。

AI 原生销售平台是 B2B AI 应用的重要场景，Monaco 专注初创公司的销售流程自动化。

📊 Matia 融资 2100 万美元，构建统一数据基础设施平台与 AI 数据工程师

根据 The AI Insider 报道，Matia 完成 2100 万美元 A 轮融资，构建统一数据基础设施平台，并推出"AI 数据工程师"产品。

数据基础设施是 AI 落地化的关键瓶颈，Matia 通过 AI 原生化降低数据工程门槛。

🔒 SEALSQ 概述量子弹性物理 AI 基础设施

根据 QuiverQuant 报道，SEALSQ 概述量子弹性物理 AI 基础设施愿景，覆盖 PQC MCU、硬件安全模块（HSM）和 SEALCOIN.AI。

量子安全是 AI 基础设施的前沿议题，SEALSQ 面向后量子密码学时代的 AI 基础设施安全。

开源项目

🔀 ClawRoute — 本地代理路由，简单 vs 复杂 LLM 任务，声称降低 60-90% 成本

根据 Reddit 讨论，ClawRoute 本地代理根据任务复杂度路由到不同模型，声称实现 60-90% 的成本降低。MIT 许可。

模型路由是降低推理成本的重要技术，ClawRoute 通过本地代理实现智能路由。

🥭 Mango Lollipop — CLI 生命周期消息生成器，使用 Claude Code，AARRR 矩阵

根据 GitHub 仓库，Mango Lollipop 是 CLI 生命周期消息生成器，使用 Claude Code 生成，基于 AARRR（获取、激活、留存、推荐、收入）矩阵。MIT 许可。

开发工具的 AI 原生化正在发生，Mango Lollipop 展示了 Claude Code 在 CLI 工具生成中的应用。

🧠 ISSA-Repository — 持久化 AI 身份框架，情境记忆与自我修正循环

根据 GitHub 仓库，ISSA-Repository 是持久化 AI 身份框架，支持情境记忆和自我修正循环。MIT 许可。

持久化身份是 AI Agent 的关键能力，ISSA-Repository 通过情境记忆和自我修正实现 AI 身份的连续性。

🗳️ Polis — 公民审议平台，AI 辅助对话揭示共识与少数观点

根据 Polis 网站，Polis 是公民审议平台，通过 AI 辅助对话揭示共识和少数观点。Open 许可。

AI 在民主协商中的应用正在兴起，Polis 通过 AI 技术促进公共讨论。

🔍 Alibaba Zvec — 嵌入式向量数据库，端上 RAG，SQLite 风格简洁性

根据 GitHub 仓库，Alibaba Zvec 是嵌入设备向量数据库，面向端上 RAG，提供 SQLite 风格的简洁性。Open 许可。

端上 AI 是降低部署成本的重要方向，Zvec 通过嵌入设备向量数据库支持端上 RAG。

📈 Linear RNNs Library — PyTorch 线性 RNN 库，加速内核，EACL SRW 2026 接收

根据 Reddit 讨论，Linear RNNs Library 是 PyTorch 线性 RNN 库，包含加速内核，论文被 EACL SRW 2026 接收。Open 许可。

线性 RNN 是序列建模的前沿方向，该库通过加速内核提升线性 RNN 的实用性。

🖼️ Z-Image-ncnn-vulkan — Z-Image 推理，消费级硬件 ncnn + Vulkan

根据 GitHub 仓库，Z-Image-ncnn-vulkan 通过 ncnn + Vulkan 在消费级硬件上实现 Z-Image 推理。Apache-2.0 许可。

消费级硬件上的 AI 推理是开源社区的重要方向，该项目通过 Vulkan 实现跨平台加速。

📊 Langfuse — 开源 LLM 可观测性，链路追踪、成本监控、OpenTelemetry 原生

根据 Confident AI 报道，Langfuse 是开源 LLM 可观测性工具，支持链路追踪、成本监控，OpenTelemetry 原生集成。Open 许可。

LLM 可观测性是生产落地的关键能力，Langfuse 通过 OpenTelemetry 集成实现标准化可观测性。

生产里程碑

🚗 Waymo 开始第六代 Driver 全自动驾驶运营，Metro Phoenix 工厂转向 tens of thousands 规模

根据 Waymo 官方博客，Waymo 开始第六代 Driver 全自动驾驶运营，Metro Phoenix 工厂通过 OEM 合作转向 tens of thousands 年产能规模。

全自动驾驶的生产落地是 AI 应用的里程碑，Waymo 的规模化运营标志着 L4 自动驾驶进入商业化阶段。

🔍 Infra Insights

本日新闻共同指向 AI 基础设施的核心趋势：吞吐量突破与超轮融资。

在吞吐量突破方面，行业呈现出从硬件到软件的全栈优化：Nvidia 的动态内存稀疏化（推理成本降低 8 倍）、Together AI 的 CPD 架构（长上下文吞吐提升 35-40%）、OpenAI 的 GPT-5.3-Codex-Spark（实时编码超 1000 tok/s）。这表明 AI 推理性能的提升不仅依赖硬件 scaling，更需要架构级和算法级的协同优化。

在超轮融资方面，Anthropic 的 300 亿美元 G 轮（估值 3800 亿）、Nscale 的 14 亿美元 GPU 担保债务融资，表明资本市场正在将 AI 视为长期结构性机会，而非周期性泡沫。Monaco（3500 万美元）、Matia（2100 万美元）等 AI 原生应用平台的融资，显示投资正在从基础设施层向应用层延伸。

AI 原生化正在形成新的竞争格局：AuraSell 的 GTM OS、Monaco 的销售平台、Matia 的数据基础设施，都在将传统软件工作流 AI 原生化。这种重构不是简单的 AI 功能叠加，而是从操作系统层面重新定义应用形态。

开源层面，ClawRoute（60-90% 成本降低）、Mango Lollipop（CLI 生成）、ISSA-Repository（持久化身份）等项目，展示了开源社区在降低 AI 落地门槛方面的创新活力。安全议题（OpenClaw 扫描、SEO 投毒防御）和治理议题（Matplotlib PR 审查）的浮现，标志着 AI 技术进入社会协商期。

吞吐量突破降低了单位智能成本，超轮融资支撑了基础设施建设，AI 原生平台重构了应用形态——AI 基础设施正在从"试验验证"走向"规模化落地"。