AI Infra Brief｜WebSocket Agent 时代与主权 LLM 崛起（2026.02.25）

2026 年 2 月 25 日，Agent 基础设施进入"状态化连接"时代，OpenAI 推出 WebSocket 模式标志着从无状态 LLM 调用到有状态 Agent 会话的范式转移。同时，推理扩散模型与主权 LLM 的崛起显示 AI 基础设施正在向多样化和区域化演进。

🧭 核心速览

🔌 OpenAI 推出 WebSocket 模式优化长链 Agent

⚡ Inception Labs 发布 Mercury 2 推理扩散模型

🇮🇳 印度推出 Sarvam-30B/105B 主权 LLM

🛡️ Anthropic 指控中国模型"能力抽取"

🗄️ Oracle AI Database 26ai GA

🌐 Cloudflare 发布 vinext Next.js 替代品

🔧 多 Agent 并发工作流解决方案涌现

Agent 基础设施与运行时

🔌 OpenAI：WebSocket 模式优化长链 Agent

根据 OpenAI 官方文档，OpenAI 为 Responses API 推出 WebSocket 模式，适用于长工作流和多工具调用场景。官方数据显示，在 20+ tool calls 场景下，执行时间可降低 40%。

核心本质：从"请求 - 响应"转向"持续连接"，Agent 基础设施开始优化"控制平面延迟"。

这代表架构级信号：从 stateless LLM 调用 → stateful agent session。对于 Agent runtime、workflow engine 或自建 orchestration 层的开发者，这是需要关注的基础设施变化。

🔧 多 Agent 并发冲突解决

根据 MyClaw Newsletter 分析，多个 Claude Code session 会互相覆盖，解决方案是使用 --worktree 标志为每个 Agent 创建独立 git worktree。

1
2
claude --worktree my-feature
claude --worktree --tmux

这是一种 Agent 级代码隔离模型，值得借鉴到多 agent orchestration 场景。

📊 Agent 评估体系演进

根据 Daily Dose of Data Science LLMOps 第 9 部分，传统 MLOps 假设在 LLM 时代已失效：模型不再自控（API 模型）、输入为自然语言、输出非确定性，需要新的 evaluation framework。

隐含重点：评估成为 LLM 产品化的核心瓶颈，这与"Infra 不是算力，而是控制能力"的理念一致。

🔬 Instruction 文件反而拖累 Agent

研究表明，像 AGENTS.md、CLAUDE.md 这种指令文件，反而降低成功率并提高 20% 成本。原因是模型已足够擅长在代码库中自主定位。

隐含趋势：从"显式规则驱动" → “上下文检索驱动”，context engineering > static instruction。

模型与推理

⚡ Inception Labs：Mercury 2 推理扩散模型

根据 Business Wire 报道，Inception Labs 发布 Mercury 2，一种通过并行去噪而非自回归生成的大语言模型。据报道吞吐量在 NVIDIA Blackwell 上约 1,000 tokens/sec，比 Claude 4.5 Haiku 和 GPT-5 Mini 快 5 倍，支持 128K 上下文、实时 Agent 循环和语音功能。

🇮🇳 印度：Sarvam 主权 LLM

根据 Drishtiias 报道，在印度 AI 影响峰会 2026 上，Sarvam AI 发布 Sarvam-30B 和 Sarvam-105B（MoE 架构，约 9B 活跃参数，128K 上下文），使用 NVIDIA NeMo 跨 22 种印度语言和英语数学/代码训练，开源用于主权采用。

这是印度 12 亿美元 IndiaAI Mission 的一部分，该计划在 2026 年 2 月推出五个主权 LLM，包括 GPU 补贴、创业资金、大规模计算和 MANAV Vision 伦理治理框架。

🛡️ Anthropic 指控中国模型"能力抽取"

根据多方报道，Anthropic 指控中国实验室（如 DeepSeek、Moonshot AI、MiniMax）通过大量账号与 Claude 交互（1600 万+）以提取能力。Anthropic 宣布加强 API 验证与安全机制，批评者（如 Elon Musk）指出其"版权立场的讽刺性"。

战略含义：模型能力"蒸馏式抽取"已成为灰色地带竞争常态，API 访问控制、身份验证、使用模式分析会成为下一阶段 LLM 基础设施的关键能力，“推理能力"正在成为资产级资源。

数据库与数据工程

🗄️ Oracle：AI Database 26ai GA

根据 DBTA 报道，Oracle AI Database 26ai Enterprise Edition for Linux x86-64 正式发布，用于本地部署，新增统一混合向量搜索、一等 AI agents 和 Model Context Protocol 支持；无需升级即可替代 Oracle Database 23ai。

❄️ Snowflake：Cortex Code 扩展

根据 DBTA 报道，Snowflake 扩展 Cortex Code 以覆盖 dbt 和 Apache Airflow 等外部源，用于跨异构管道的自然语言代码生成和优化。

🏔️ Cloudera：AI 推理平台本地化

根据 DBTA 报道，Cloudera 将其 AI 推理平台和 Cloudera 数据仓库与 Trino 一起扩展到本地部署。

基础设施与部署工具

🌐 Cloudflare：vinext Next.js 替代品

根据 Cloudflare 博客，Cloudflare 的 vinext（用 Claude 构建的 Next.js 替代品）报告称构建速度提升 4.4 倍，bundle 减少 57%，原生 Workers 部署，以及流量感知预渲染。

🔍 Qdrant 1.17：向量原生相关性反馈

根据 DBTA 报道，Qdrant 1.17 新增向量原生相关性反馈查询，用于迭代 RAG 改进。

💾 IBM：Agentic AI 驱动存储

根据 DBTA 报道，IBM 推出由 agentic AI 驱动的 FlashSystem，用于自主存储操作。

企业网络与 Agent 平台

🔌 Cisco：Agentic AI 采用框架

根据 DBTA 报道，Cisco 概述了跨保护、交互治理和弹性连接的 agentic AI 采用框架，并强调 Nexus One 与 Isovalent Cilium 的低延迟 AI 网络。

⚡ Vercel：Chat SDK 跨平台部署

根据 X 报道，Vercel 的 Chat SDK 提供单一代码库，通过流式传输在 Slack、Discord、Teams、GitHub 和 Linear 上部署 agents。

🌊 Liquid AI & Together AI：LFM2-24B-A2B 无服务器部署

根据 X 报道，Liquid AI 和 Together AI 为 LFM2-24B-A2B 提供无服务器部署，具有 99.9% 可靠性 SLA。

☁️ Daytona：Agent 原生云基础设施

根据 X 报道，Daytona 宣布用于安全、有状态 agent 运行时的 agent 原生云基础设施。

去中心化 AI 基础设施

💵 Circle：加入 Agentic AI Foundation

根据 X 报道，Circle 加入 Agentic AI Foundation，将 USDC 定位为 agent 支付。

🔗 RelAI & OnFinality：跨链协调

根据 X 报道，RelAI 和 OnFinality 集成，以原生结算跨链协调 agent 操作。

📱 Acurast & Base：移动节点验证执行

根据 X 报道，Acurast 与 Base 的集成带来 225,000+ 移动节点用于可验证 AI 执行。

⛓️ Ritual：协议层模型计算

根据 X 报道，Ritual 推进"enshrined compute”，在协议层可验证地运行模型。

🚀 OpenServAI：Solana AI 原生层

根据 X 报道，OpenServAI 在 Solana 上推广由 $SERV token 驱动的 AI 原生层。

🔓 Bless：边缘原生计算

根据 X 报道，Bless 针对来自空闲设备的无许可、边缘原生计算。

🔍 Infra Insights

本日新闻指向 AI 基础设施的三个核心转变：Agent 基础设施从无状态调用走向有状态会话、推理模型架构多元化探索与主权 AI 和去中心化基础设施同时崛起。

OpenAI 的 WebSocket 模式代表了 Agent 运行时的范式转移，从传统的请求 - 响应模型转向持久化连接，这对于长链 Agent 工作流的延迟优化至关重要。Inception Labs 的 Mercury 2 通过扩散而非自回归生成，代表了模型架构范式的另一种探索，在推理速度上实现了显著提升。

印度的 Sarvam 系列主权 LLM 和多个去中心化 AI 项目（Circle、RelAI、Ritual、OpenServAI）的进展，显示 AI 基础设施正在经历区域化和去中心化的双重运动。Oracle、Snowflake、Cloudera 等 AI 原生数据库的 GA 发布，表明传统数据基础设施正在全面拥抱向量检索和 Agent 能力。

Anthropic 对中国模型"能力抽取"的指控，揭示了 API 访问控制和身份验证正在成为 LLM 基础设施的关键能力边界。研究显示 Instruction 文件反而拖累 Agent 性能，这一发现强化了"上下文检索优于静态指令"的趋势。

Cloudflare 的 vinext 和 Daytona 的 agent 原生基础设施，展示了新的部署模式和边缘计算潜力。整体而言，AI 基础设施正在从通用算力向专用能力演进，从中心化服务向多中心生态分化，从无状态调用向有状态 Agent 会话转型。