2026 年 2 月 25 日,Agent 基础设施进入"状态化连接"时代,OpenAI 推出 WebSocket 模式标志着从无状态 LLM 调用到有状态 Agent 会话的范式转移。同时,推理扩散模型与主权 LLM 的崛起显示 AI 基础设施正在向多样化和区域化演进。
🧭 核心速览
🔌 OpenAI 推出 WebSocket 模式优化长链 Agent
⚡ Inception Labs 发布 Mercury 2 推理扩散模型
🇮🇳 印度推出 Sarvam-30B/105B 主权 LLM
🛡️ Anthropic 指控中国模型"能力抽取"
🗄️ Oracle AI Database 26ai GA
🌐 Cloudflare 发布 vinext Next.js 替代品
🔧 多 Agent 并发工作流解决方案涌现
Agent 基础设施与运行时
🔌 OpenAI:WebSocket 模式优化长链 Agent
根据 OpenAI 官方文档,OpenAI 为 Responses API 推出 WebSocket 模式,适用于长工作流和多工具调用场景。官方数据显示,在 20+ tool calls 场景下,执行时间可降低 40%。
核心本质:从"请求 - 响应"转向"持续连接",Agent 基础设施开始优化"控制平面延迟"。
这代表架构级信号:从 stateless LLM 调用 → stateful agent session。对于 Agent runtime、workflow engine 或自建 orchestration 层的开发者,这是需要关注的基础设施变化。
🔧 多 Agent 并发冲突解决
根据 MyClaw Newsletter 分析,多个 Claude Code session 会互相覆盖,解决方案是使用 --worktree 标志为每个 Agent 创建独立 git worktree。
| |
这是一种 Agent 级代码隔离模型,值得借鉴到多 agent orchestration 场景。
📊 Agent 评估体系演进
根据 Daily Dose of Data Science LLMOps 第 9 部分,传统 MLOps 假设在 LLM 时代已失效:模型不再自控(API 模型)、输入为自然语言、输出非确定性,需要新的 evaluation framework。
隐含重点:评估成为 LLM 产品化的核心瓶颈,这与"Infra 不是算力,而是控制能力"的理念一致。
🔬 Instruction 文件反而拖累 Agent
研究表明,像 AGENTS.md、CLAUDE.md 这种指令文件,反而降低成功率并提高 20% 成本。原因是模型已足够擅长在代码库中自主定位。
隐含趋势:从"显式规则驱动" → “上下文检索驱动”,context engineering > static instruction。
模型与推理
⚡ Inception Labs:Mercury 2 推理扩散模型
根据 Business Wire 报道,Inception Labs 发布 Mercury 2,一种通过并行去噪而非自回归生成的大语言模型。据报道吞吐量在 NVIDIA Blackwell 上约 1,000 tokens/sec,比 Claude 4.5 Haiku 和 GPT-5 Mini 快 5 倍,支持 128K 上下文、实时 Agent 循环和语音功能。
🇮🇳 印度:Sarvam 主权 LLM
根据 Drishtiias 报道,在印度 AI 影响峰会 2026 上,Sarvam AI 发布 Sarvam-30B 和 Sarvam-105B(MoE 架构,约 9B 活跃参数,128K 上下文),使用 NVIDIA NeMo 跨 22 种印度语言和英语数学/代码训练,开源用于主权采用。
这是印度 12 亿美元 IndiaAI Mission 的一部分,该计划在 2026 年 2 月推出五个主权 LLM,包括 GPU 补贴、创业资金、大规模计算和 MANAV Vision 伦理治理框架。
🛡️ Anthropic 指控中国模型"能力抽取"
根据多方报道,Anthropic 指控中国实验室(如 DeepSeek、Moonshot AI、MiniMax)通过大量账号与 Claude 交互(1600 万+)以提取能力。Anthropic 宣布加强 API 验证与安全机制,批评者(如 Elon Musk)指出其"版权立场的讽刺性"。
战略含义:模型能力"蒸馏式抽取"已成为灰色地带竞争常态,API 访问控制、身份验证、使用模式分析会成为下一阶段 LLM 基础设施的关键能力,“推理能力"正在成为资产级资源。
数据库与数据工程
🗄️ Oracle:AI Database 26ai GA
根据 DBTA 报道,Oracle AI Database 26ai Enterprise Edition for Linux x86-64 正式发布,用于本地部署,新增统一混合向量搜索、一等 AI agents 和 Model Context Protocol 支持;无需升级即可替代 Oracle Database 23ai。
❄️ Snowflake:Cortex Code 扩展
根据 DBTA 报道,Snowflake 扩展 Cortex Code 以覆盖 dbt 和 Apache Airflow 等外部源,用于跨异构管道的自然语言代码生成和优化。
🏔️ Cloudera:AI 推理平台本地化
根据 DBTA 报道,Cloudera 将其 AI 推理平台和 Cloudera 数据仓库与 Trino 一起扩展到本地部署。
基础设施与部署工具
🌐 Cloudflare:vinext Next.js 替代品
根据 Cloudflare 博客,Cloudflare 的 vinext(用 Claude 构建的 Next.js 替代品)报告称构建速度提升 4.4 倍,bundle 减少 57%,原生 Workers 部署,以及流量感知预渲染。
🔍 Qdrant 1.17:向量原生相关性反馈
根据 DBTA 报道,Qdrant 1.17 新增向量原生相关性反馈查询,用于迭代 RAG 改进。
💾 IBM:Agentic AI 驱动存储
根据 DBTA 报道,IBM 推出由 agentic AI 驱动的 FlashSystem,用于自主存储操作。
企业网络与 Agent 平台
🔌 Cisco:Agentic AI 采用框架
根据 DBTA 报道,Cisco 概述了跨保护、交互治理和弹性连接的 agentic AI 采用框架,并强调 Nexus One 与 Isovalent Cilium 的低延迟 AI 网络。
⚡ Vercel:Chat SDK 跨平台部署
根据 X 报道,Vercel 的 Chat SDK 提供单一代码库,通过流式传输在 Slack、Discord、Teams、GitHub 和 Linear 上部署 agents。
🌊 Liquid AI & Together AI:LFM2-24B-A2B 无服务器部署
根据 X 报道,Liquid AI 和 Together AI 为 LFM2-24B-A2B 提供无服务器部署,具有 99.9% 可靠性 SLA。
☁️ Daytona:Agent 原生云基础设施
根据 X 报道,Daytona 宣布用于安全、有状态 agent 运行时的 agent 原生云基础设施。
去中心化 AI 基础设施
💵 Circle:加入 Agentic AI Foundation
根据 X 报道,Circle 加入 Agentic AI Foundation,将 USDC 定位为 agent 支付。
🔗 RelAI & OnFinality:跨链协调
根据 X 报道,RelAI 和 OnFinality 集成,以原生结算跨链协调 agent 操作。
📱 Acurast & Base:移动节点验证执行
根据 X 报道,Acurast 与 Base 的集成带来 225,000+ 移动节点用于可验证 AI 执行。
⛓️ Ritual:协议层模型计算
根据 X 报道,Ritual 推进"enshrined compute”,在协议层可验证地运行模型。
🚀 OpenServAI:Solana AI 原生层
根据 X 报道,OpenServAI 在 Solana 上推广由 $SERV token 驱动的 AI 原生层。
🔓 Bless:边缘原生计算
根据 X 报道,Bless 针对来自空闲设备的无许可、边缘原生计算。
🔍 Infra Insights
本日新闻指向 AI 基础设施的三个核心转变:Agent 基础设施从无状态调用走向有状态会话、推理模型架构多元化探索与主权 AI 和去中心化基础设施同时崛起。
OpenAI 的 WebSocket 模式代表了 Agent 运行时的范式转移,从传统的请求 - 响应模型转向持久化连接,这对于长链 Agent 工作流的延迟优化至关重要。Inception Labs 的 Mercury 2 通过扩散而非自回归生成,代表了模型架构范式的另一种探索,在推理速度上实现了显著提升。
印度的 Sarvam 系列主权 LLM 和多个去中心化 AI 项目(Circle、RelAI、Ritual、OpenServAI)的进展,显示 AI 基础设施正在经历区域化和去中心化的双重运动。Oracle、Snowflake、Cloudera 等 AI 原生数据库的 GA 发布,表明传统数据基础设施正在全面拥抱向量检索和 Agent 能力。
Anthropic 对中国模型"能力抽取"的指控,揭示了 API 访问控制和身份验证正在成为 LLM 基础设施的关键能力边界。研究显示 Instruction 文件反而拖累 Agent 性能,这一发现强化了"上下文检索优于静态指令"的趋势。
Cloudflare 的 vinext 和 Daytona 的 agent 原生基础设施,展示了新的部署模式和边缘计算潜力。整体而言,AI 基础设施正在从通用算力向专用能力演进,从中心化服务向多中心生态分化,从无状态调用向有状态 Agent 会话转型。