AI Infra Dao

AI Infra Brief|吞吐量突破与超轮融资重塑 AI 基础设施(2026.02.13)

2026 年 2 月 13 日,AI 基础设施领域迎来吞吐量突破与超轮融资的双重浪潮。从推理成本 8 倍降低到 300 亿美元融资,从专用推理架构到全自动驾驶运营,行业正在通过技术创新和资本注入全面提升 AI 容量与性能。

🧭 核心速览

⚡ Nvidia 推出动态内存稀疏化,推理成本降低 8 倍,吞吐提升 5 倍

🔄 Together AI 发布 CPD 架构,长上下文应用吞吐提升 35-40%

🚀 OpenAI 发布 GPT-5.3-Codex-Spark,实时编码超 1000 tok/s

💰 Anthropic 融资 300 亿美元,估值 3800 亿(历史最大)

💰 Nscale 获 14 亿美元债务融资,部署 20 万颗 NVIDIA GB300

🌐 Cisco 推出 Silicon One G300(102.4 Tbps)AI 原生网络

🛒 AuraSell 推出 AI 原生 GTM OS,统一营销销售工作流

🤖 Monaco 融资 3500 万美元,构建 AI 原生销售平台

基础设施突破

⚡ Nvidia 推出动态内存稀疏化,推理成本降低 8 倍,吞吐提升 5 倍

根据 VentureBeat 报道,Nvidia 推出动态内存稀疏化技术,压缩 KV 缓存,将推理内存成本降低 8 倍,在 Qwen3-8B 上实现单服务器吞吐提升 5 倍,同时保持与原始模型一致的准确率。该技术通过 KVPress 库发布,兼容 Hugging Face 和 FlashAttention。

推理成本优化是 AI 落地化的关键,Nvidia 的技术突破为长上下文推理提供了新路径。

🔄 Together AI 发布 CPD 架构,长上下文应用吞吐提升 35-40%

根据 MEXC 报道,Together AI 揭出缓存感知预填充 - 解码分离架构(CPD),将推理拆分为专用节点类型,采用三级 KV 缓存层次结构,在 NVIDIA B200 GPU 上为长上下文应用实现 35-40% 的吞吐提升。

推理架构专业化是提升性能的重要方向,CPD 通过硬件与软件协同优化实现突破。

🚀 OpenAI 发布 GPT-5.3-Codex-Spark,实时编码超 1000 tok/s

根据 OpenAI 官方博客,OpenAI 发布 GPT-5.3-Codex-Spark 实时编码模型,在 Cerebras WSE-3 上实现超 1000 tokens/秒推理速度,通过持久化 WebSockets 将往返开销降低 80%。

实时编码是 AI 辅助编程的重要场景,专用硬件与模型协同实现吞吐量突破。

融资与合作

💰 Anthropic 融资 300 亿美元,估值 3800 亿(历史最大)

根据 Anthropic 官方公告,Anthropic 完成 300 亿美元 G 轮融资,投后估值达 3800 亿美元,资金用于扩展基础设施和前沿研究,计算资源多元化覆盖 AWS Trainium、Google TPU 和 NVIDIA GPU。

这是 AI 基础设施领域迄今规模最大的融资之一,反映资本市场对 AI 长期增长的信心。

💰 Nscale 获 14 亿美元债务融资,部署 20 万颗 NVIDIA GB300

根据 Nscale 新闻稿,Nscale 签署 14 亿美元递延提取定期贷款(以 GPU 为担保),将在挪威、葡萄牙、冰岛和英国的计算中心部署约 20 万颗 NVIDIA GB300 GPU。

以 GPU 为担保的债务融资是 AI 基础设施领域的新兴模式,Nscale 正在欧洲建设大规模 AI 计算集群。

🌐 Cisco 推出 Silicon One G300(102.4 Tbps)AI 原生网络

根据 Markets Chronicle 报道,Cisco 强调 AI 原生基础设施举措:Silicon One G300(102.4 Tbps)、800G/1.6T 液冷交换、以及基于 Splunk 的 AgenticOps。

网络是 AI 数据中心的关键瓶颈,Cisco 的 AI 原生网络产品线瞄准 AI 集群的互联需求。

📧 Sinch 与 Lovable 合作,将 Mailgun 规模通信嵌入 AI 原生应用

根据 The Fast Mode 报道,Sinch 与 Lovable 建立合作伙伴关系,将 Mailgun 规模的通信能力嵌入 Lovable Cloud,赋能 AI 原生应用。

通信基础设施是 AI 应用落地的重要环节,Sinch 与 Lovable 的合作降低了 AI 应用的通信集成门槛。

AI 原生平台

🛒 AuraSell 推出 AI 原生 GTM OS,统一营销销售工作流

根据 SiliconAngle 报道,AuraSell 发布 AI 原生 GTM(Go-To-Market)操作系统,基于 Salesforce/HubSpot 构建,统一销售、营销和客户成功工作流。

AI 原生平台正在从工具层面上升到操作系统层面,AuraSell 的 GTM OS 面向商业流程的 AI 原生化。

🤖 Monaco 融资 3500 万美元,构建 AI 原生销售平台

根据 The AI Insider 报道,Monaco 从隐身模式脱颖而出,完成 3500 万美元 A 轮融资,构建面向初创公司的端到端 AI 原生销售平台。

AI 原生销售平台是 B2B AI 应用的重要场景,Monaco 专注初创公司的销售流程自动化。

📊 Matia 融资 2100 万美元,构建统一数据基础设施平台与 AI 数据工程师

根据 The AI Insider 报道,Matia 完成 2100 万美元 A 轮融资,构建统一数据基础设施平台,并推出"AI 数据工程师"产品。

数据基础设施是 AI 落地化的关键瓶颈,Matia 通过 AI 原生化降低数据工程门槛。

🔒 SEALSQ 概述量子弹性物理 AI 基础设施

根据 QuiverQuant 报道,SEALSQ 概述量子弹性物理 AI 基础设施愿景,覆盖 PQC MCU、硬件安全模块(HSM)和 SEALCOIN.AI。

量子安全是 AI 基础设施的前沿议题,SEALSQ 面向后量子密码学时代的 AI 基础设施安全。

开源项目

🔀 ClawRoute — 本地代理路由,简单 vs 复杂 LLM 任务,声称降低 60-90% 成本

根据 Reddit 讨论,ClawRoute 本地代理根据任务复杂度路由到不同模型,声称实现 60-90% 的成本降低。MIT 许可。

模型路由是降低推理成本的重要技术,ClawRoute 通过本地代理实现智能路由。

🥭 Mango Lollipop — CLI 生命周期消息生成器,使用 Claude Code,AARRR 矩阵

根据 GitHub 仓库,Mango Lollipop 是 CLI 生命周期消息生成器,使用 Claude Code 生成,基于 AARRR(获取、激活、留存、推荐、收入)矩阵。MIT 许可。

开发工具的 AI 原生化正在发生,Mango Lollipop 展示了 Claude Code 在 CLI 工具生成中的应用。

🧠 ISSA-Repository — 持久化 AI 身份框架,情境记忆与自我修正循环

根据 GitHub 仓库,ISSA-Repository 是持久化 AI 身份框架,支持情境记忆和自我修正循环。MIT 许可。

持久化身份是 AI Agent 的关键能力,ISSA-Repository 通过情境记忆和自我修正实现 AI 身份的连续性。

🗳️ Polis — 公民审议平台,AI 辅助对话揭示共识与少数观点

根据 Polis 网站,Polis 是公民审议平台,通过 AI 辅助对话揭示共识和少数观点。Open 许可。

AI 在民主协商中的应用正在兴起,Polis 通过 AI 技术促进公共讨论。

🔍 Alibaba Zvec — 嵌入式向量数据库,端上 RAG,SQLite 风格简洁性

根据 GitHub 仓库,Alibaba Zvec 是嵌入设备向量数据库,面向端上 RAG,提供 SQLite 风格的简洁性。Open 许可。

端上 AI 是降低部署成本的重要方向,Zvec 通过嵌入设备向量数据库支持端上 RAG。

📈 Linear RNNs Library — PyTorch 线性 RNN 库,加速内核,EACL SRW 2026 接收

根据 Reddit 讨论,Linear RNNs Library 是 PyTorch 线性 RNN 库,包含加速内核,论文被 EACL SRW 2026 接收。Open 许可。

线性 RNN 是序列建模的前沿方向,该库通过加速内核提升线性 RNN 的实用性。

🖼️ Z-Image-ncnn-vulkan — Z-Image 推理,消费级硬件 ncnn + Vulkan

根据 GitHub 仓库,Z-Image-ncnn-vulkan 通过 ncnn + Vulkan 在消费级硬件上实现 Z-Image 推理。Apache-2.0 许可。

消费级硬件上的 AI 推理是开源社区的重要方向,该项目通过 Vulkan 实现跨平台加速。

📊 Langfuse — 开源 LLM 可观测性,链路追踪、成本监控、OpenTelemetry 原生

根据 Confident AI 报道,Langfuse 是开源 LLM 可观测性工具,支持链路追踪、成本监控,OpenTelemetry 原生集成。Open 许可。

LLM 可观测性是生产落地的关键能力,Langfuse 通过 OpenTelemetry 集成实现标准化可观测性。

热门讨论

🔓 OpenClaw 安全扫描:18000 个实例中发现 15% 社区技能含恶意指令,“委托妥协"风险

根据 Reddit 讨论,OpenClaw 安全扫描显示,18000 个暴露实例中,15% 的社区技能包含恶意指令,存在"委托妥协”(Delegated Compromise)风险。

AI Agent 的安全是前沿议题,OpenClaw 扫描揭示了社区生态中的安全风险。

📊 衡量 AI Agent ROI:六个成熟度信号,提出"Agent Bus"协调层

根据 HPCwire 报道,文章讨论 AI Agent ROI 衡量,提出六个成熟度信号,并建议建立"Agent Bus"协调层。

AI Agent 的 ROI 是企业关注的核心问题,成熟度框架和协调层架构是 Agent 工程化的关键。

🛡️ SEO/GEO/AEO 投毒防御(面向 RAG 和 Agent),强调溯源

根据 Penligent 报道,文章讨论 SEO/GEO/AEO 投毒攻击的防御措施,面向 RAG 和 Agent 系统,强调数据溯源的重要性。

搜索投毒是 AI 系统的新兴威胁,防御措施需要覆盖数据源、链路和推理全流程。

💢 Claude Code v2.1.20 UI 变更引发文件路径透明度抵制

根据 Dev.to 报道,Claude Code v2.1.20 UI 变更引发社区抵制,争议焦点在于文件路径透明度。

开发者工具的 UI 设计影响用户体验,Claude Code 的争议反映了透明度与简洁性之间的权衡。

📊 Matplotlib 关闭 AI 生成 PR(#31132),引发治理辩论

根据 Merchmindai 报道,Matplotlib 关闭 AI 生成的 PR(#31132),引发开源项目治理的广泛辩论。

AI 生成代码的审核是开源治理的新兴议题,Matplotlib 的决策代表了保守派立场。

生产里程碑

🚗 Waymo 开始第六代 Driver 全自动驾驶运营,Metro Phoenix 工厂转向 tens of thousands 规模

根据 Waymo 官方博客,Waymo 开始第六代 Driver 全自动驾驶运营,Metro Phoenix 工厂通过 OEM 合作转向 tens of thousands 年产能规模。

全自动驾驶的生产落地是 AI 应用的里程碑,Waymo 的规模化运营标志着 L4 自动驾驶进入商业化阶段。

🔍 Infra Insights

本日新闻共同指向 AI 基础设施的核心趋势:吞吐量突破超轮融资

吞吐量突破方面,行业呈现出从硬件到软件的全栈优化:Nvidia 的动态内存稀疏化(推理成本降低 8 倍)、Together AI 的 CPD 架构(长上下文吞吐提升 35-40%)、OpenAI 的 GPT-5.3-Codex-Spark(实时编码超 1000 tok/s)。这表明 AI 推理性能的提升不仅依赖硬件 scaling,更需要架构级和算法级的协同优化。

超轮融资方面,Anthropic 的 300 亿美元 G 轮(估值 3800 亿)、Nscale 的 14 亿美元 GPU 担保债务融资,表明资本市场正在将 AI 视为长期结构性机会,而非周期性泡沫。Monaco(3500 万美元)、Matia(2100 万美元)等 AI 原生应用平台的融资,显示投资正在从基础设施层向应用层延伸。

AI 原生化正在形成新的竞争格局:AuraSell 的 GTM OS、Monaco 的销售平台、Matia 的数据基础设施,都在将传统软件工作流 AI 原生化。这种重构不是简单的 AI 功能叠加,而是从操作系统层面重新定义应用形态。

开源层面,ClawRoute(60-90% 成本降低)、Mango Lollipop(CLI 生成)、ISSA-Repository(持久化身份)等项目,展示了开源社区在降低 AI 落地门槛方面的创新活力。安全议题(OpenClaw 扫描、SEO 投毒防御)和治理议题(Matplotlib PR 审查)的浮现,标志着 AI 技术进入社会协商期。

吞吐量突破降低了单位智能成本,超轮融资支撑了基础设施建设,AI 原生平台重构了应用形态——AI 基础设施正在从"试验验证"走向"规模化落地"。