AI Infra Brief｜llm-d 入驻 CNCF、向量与智能体基础设施爆发（2026.03.25）

2026 年 3 月 25 日，Kubernetes 原生分布式推理框架 llm-d 正式入驻 CNCF Sandbox，标志着云原生 AI 推理标准进入开源共建阶段。向量数据库加速企业数据平面集成，智能体经济体获得支付与钱包核心原语支持。

🧭 核心速览

🎯 llm-d 入驻 CNCF Sandbox：跨厂商 Kubernetes 蓝图，TTFT 降低 35%，P95 延迟改善 52%

🤖 NVIDIA Nemotron-3：智能体专用模型，Cascade-2-30B-A3B 仅 3B 激活参数达 IMO/IOI/ICPC 金牌水平

🔐 Oracle AI Database： Autonomous AI Vector Database、Vectors on Ice、Private Agent Factory

💳 MoonPay 开源钱包标准：非托管、多链钱包，支持加密金库与 x402

⚡ VAST Data + NVIDIA：KV 缓存卸载，单 GPU 服务器推理提升 10x

🛡️ Check Point AI Factory 蓝图：从 LLM 到容器微分段四层安全架构

云原生 AI 推理标准

🎯 llm-d 入驻 CNCF Sandbox

根据 CNCF 官方博客、Google Cloud 博客、Red Hat 博客、The New Stack、IBM Research 博客、CoreWeave 博客联合报道，由 Google Cloud、Red Hat、IBM Research、CoreWeave 和 NVIDIA 共同捐赠的 Kubernetes 原生分布式推理框架 llm-d 正式被 CNCF 接受为 Sandbox 项目。

Kubernetes 成为 AI 推理标准编排层。llm-d 入驻 CNCF 显示云原生社区正在将 Kubernetes 进化为 AI 基础设施标准层。35% TTFT（Time To First Token）降低和 52% P95 延迟改善显示通过 Kubernetes 优化可以实现生产级推理性能。解耦的 prefill/decode、分层 KV 缓存卸载、GAIE、EPP 和 LWS 组件构成完整推理栈。

跨厂商协作避免碎片化。Google Cloud、Red Hat、IBM、CoreWeave、NVIDIA 五家巨头联合捐赠显示行业共识：AI 推理需要开放标准而非专有方案。llm-d 集成 KServe 与 vLLM，连接服务化推理与高性能引擎，避免基础设施分裂。

CNCF Sandbox 是开源 AI 基础设施里程碑。llm-d 进入 Sandbox 标志着云原生基金会正式拥抱 AI 工作负载。未来可能发展为 Incubating 或 Graduated 项目，成为 Kubernetes 生态的 AI 推理标准层。这降低了用户部署复杂度，通过 Helm、Operator 等云原生工具实现"一键部署"推理集群。

智能体模型与运行时

🤖 NVIDIA Nemotron-3：智能体专用

根据 X 用户 wbx_life 和 LangChainJP 报道，NVIDIA 发布智能体专用模型更新：Nemotron-Cascade-2-30B-A3B 仅用 3B 激活参数在 IMO/IOI/ICPC 2025 达到金牌水平，采用 Cascade RL 和混合 Mamba-Transformer 架构；Nemotron 3 Nano 4B 面向端侧智能体。

智能体模型走向稀疏激活。3B 激活参数达到金牌水平显示稀疏激活模型在智能体场景的潜力——降低推理成本、保持高性能。Cascade RL 和混合架构（Mamba-Transformer）平衡效率与能力，智能体模型不再追求"全参数激活"而是"按需激活"。

端侧智能体获得专用模型。Nemotron 3 Nano 4B 显示智能体从云端向边缘扩展。4B 参数在移动设备、IoT、边缘服务器上可实现本地推理，降低延迟、保护隐私。这呼应了 AI 原生操作系统的趋势——智能体能力下沉到设备层。

智能体模型与通用模型分化。Nemotron-Cascade 专注于智能体任务（推理、规划、工具调用），而非通用对话。这显示 AI 模型市场走向"场景化专用"，智能体、编码、多模态各自有专门优化的模型架构。

向量数据库企业化

🔐 Oracle AI Database：向量化企业数据

根据 Oracle DOTNET 推文、Morningstar 新闻稿、Oracle 官方博客报道，Oracle 发布 AI Database 向量与智能体特性：Autonomous AI Vector Database、Vectors on Ice（基于 Apache Iceberg）、Private Agent Factory、全球分布式向量数据、MCP 支持、统一搜索。

向量数据库下沉到企业数据平面。Oracle 将向量搜索集成到自治数据库，显示企业数据正在向量化——关系数据、文档、图像、日志都需要向量表示以支持语义搜索、RAG、智能体记忆。Vectors on Ice 基于 Apache Iceberg 实现向量数据湖仓，打通数据湖与向量搜索。

Private Agent Factory 实现智能体隔离。企业需要为不同部门、项目、客户部署独立智能体，Private Agent Factory 提供隔离环境、权限控制、审计日志。这显示智能体部署从"单体应用"转向"多租户微服务"，每个智能体有独立的数据、策略、监控。

全球分布式向量数据支持合规。数据主权、隐私法规要求向量数据存储在特定地区，Oracle 的全球分布式架构使向量搜索遵循数据本地化要求。这显示向量数据库不仅是技术问题，也是合规问题。

MCP（Model Context Protocol）支持生态集成。Oracle 支持 MCP 显示企业系统需要标准协议连接 LLM 应用——数据源、工具、监控统一接入。MCP 可能成为企业 AI 集成的"USB 标准"。

智能体经济基础设施

💳 MoonPay 开源钱包标准

根据 MEXC 新闻、Decrypt 报道报道，MoonPay 开源 Open Wallet Standard，为 AI 智能体提供非托管、多链钱包标准，支持加密金库与 x402 支付协议。

智能体需要金融身份。Open Wallet Standard 使智能体可以持有资产、进行支付、签署交易——类似于人类的银行账户。非托管架构确保智能体控制自己的私钥，避免中心化平台挪用风险。多链支持显示智能体经济不是单一区块链，而是跨链生态。

x402 支付协议互补。x402 定义智能体支付标准，Open Wallet Standard 提供钱包实现。两者构成智能体经济的"支付层"——类似于人类经济的 Visa/SWIFT，但为智能体设计。

智能体经济需要"钱包即服务"。MoonPay 作为加密支付提供商，开源钱包标准显示商业模式转向基础设施提供商。未来可能有更多"智能体金融基础设施"项目——支付、借贷、交易所、保险。

推理性能优化

⚡ VAST Data + NVIDIA：KV 缓存卸载

根据 SiliconANGLE 报道，VAST Data 与 NVIDIA 合作通过 CMX 和 BlueField-4 DPU 实现 KV 缓存卸载，单 GPU 服务器推理性能提升 10x。

KV 缓存卸载解决内存瓶颈。LLM 推理的 KV 缓存占用大量 GPU 内存，限制批处理大小和并发请求。通过 BlueField-4 DPU 将 KV 缓存卸载到 CPU 内存或专用存储，释放 GPU 用于计算，提升吞吐量。10x 提升显示内存优化是推理性能的关键杠杆。

数据路径专用化。VAST Data 的 CMX（Consolidated Memory and eXtreme）架构显示 AI 推理需要专用数据路径——从存储到 GPU 的低延迟、高带宽通道。这类似于 AI 训练的专用存储系统，但推理场景更注重并发访问和缓存命中率。

DPU 成为 AI 基础设施组件。BlueField-4 DPU 在 KV 缓存卸载中扮演关键角色，显示 DPU 从网络卸载扩展到 AI 卸载。未来 DPU 可能集成更多 AI 加速能力——量化和压缩、安全加密、负载均衡。

安全与基础设施

🛡️ Check Point AI Factory 蓝图

根据 GlobeNewswire 报道，Check Point 发布 AI Factory 安全蓝图，提出从 LLM 到容器微分段四层安全架构。

AI 工厂需要纵深防御。四层架构（LLM 层、应用层、运行时层、基础设施层）显示 AI 安全是全栈问题——从提示注入到容器逃逸、从模型窃取到 GPU 服务器物理安全。单点防护不足，需要层层设防。

安全从"外部"走向"内生"。AI Factory 蓝图将安全集成到 AI 基础设施设计，而非事后附加。这显示 AI 安正在成为基础设施需求——类似于云计算的"安全左移"，AI 开发也需要"安全左移"。

Upwind LLM API 安全

根据 Upwind 官方博客报道，Upwind 发布三阶段 LLM API 安全流水线，使用 NVIDIA 模型，声称 95% 精度、亚毫秒推理。

API 安全需要 AI 驱动。传统 WAF、API 网关无法识别 LLM 特定攻击（提示注入、模型提取、数据泄露）。Upwind 使用 NVIDIA Nemorton 模型分析 API 请求和响应，检测异常模式。95% 精度、亚毫秒延迟显示 AI 安全可以在不影响性能的前提下部署。

OpenSearch 获 GigaOm 认可

根据 Cloud Native Now 报道，OpenSearch 在 GigaOm Vector Database Radar v3 中被评为 Leader 和 Fast Mover。

开源向量数据库成熟。OpenSearch 基于 Elasticsearch，增加向量搜索能力，显示传统搜索引擎正在向量化。Leader 和 Fast Mover 认可显示开源方案可以与专有向量数据库（Pinecone、Weaviate）竞争。

开源与研究

🦊 Fox：Rust LLM 引擎

根据 Reddit 报道，Fox 是 Rust 实现的 LLM 推理引擎，声称在 RTX 4060 上相比 Ollama 实现 2x 吞吐量和 72% 更低 TTFT，使用 PagedAttention 和连续批处理。

Rust 在 AI 运行时崛起。Fox 显示 Rust 的内存安全、并发性能、零成本抽象适合 AI 推理引擎。2x 吞吐量提升显示运行时语言选择显著影响性能——Python 适合原型，Rust 适合生产。

🔍 VLouvain：向量社区检测

根据 Reddit 报道，VLouvain 直接在嵌入向量上进行 Louvain 社区检测，报告 157 万节点聚类在 11300 秒内完成。

嵌入向量作为图结构。VLouvain 将嵌入空间视为图，节点是向量，边是相似度。直接在向量上进行社区检测避免传统"两步法"（先嵌入再建图），提升效率。这显示向量数据不仅有语义信息，也有拓扑信息。

📚 arXiv 亮点

根据 [arXiv 论文]https://arxiv.org/pdf/2603.22276v1]https://arxiv.org/pdf/2603.22286v1]https://arxiv.org/pdf/2603.22216v1]https://arxiv.org/pdf/2603.22228v1]https://arxiv.org/pdf/2603.22281v1]https://arxiv.org/pdf/2603.22267v1]https://arxiv.org/pdf/2603.22231v1]https://arxiv.org/pdf/2603.22219v1] 报道，本日 arXiv 亮点包括：DoRA 扩展（VRAM 减少、1.5–2.0x 加速）、WorldCache（视频世界模型 2.3x 加速）、Gumbel Distillation（并行文本生成加速）、SpatialReward、ThinkJEPA、TiCo、GEM-Rec、Noise Titration。

🔍 Infra Insights

本日核心趋势： 云原生 AI 推理标准确立（llm-d 入驻 CNCF）、向量数据库企业化（Oracle AI Database）、智能体经济基础设施化（MoonPay 钱包）、推理性能优化（KV 缓存卸载）、安全内生化（Check Point 蓝图）、开源运行时创新（Fox Rust 引擎）。

云原生 AI 推理标准确立。llm-d 入驻 CNCF 显示行业共识：AI 推理需要开放、标准、可互操作的编排层。Kubernetes 从容器编排扩展到 LLM 推理编排，用户可以用同一套工具管理微服务和模型服务。跨厂商协作避免碎片化，降低用户学习曲线和迁移成本。

向量数据库企业化三阶段。第一阶段是独立向量数据库（Pinecone、Weaviate），第二阶段是关系数据库集成向量搜索（PostgreSQL + pgvector），第三阶段是企业数据平台全面向量化（Oracle AI Database）。Oracle 的 Vectors on Ice 将向量数据集成到数据湖仓，打通 ETL、数据治理、BI 与向量搜索，显示企业数据正在从"结构化"向"向量化"演进。

智能体经济基础设施化。Open Wallet Standard 显示智能体需要金融基础设施——钱包、支付、身份、合规。x402 支付协议、ERC-8004 身份标准、MoonPay 钱包构成智能体经济的"金融栈"。这类似于人类经济的银行、Visa、KYC，但为智能体设计——自动化、可编程、跨境。

推理性能优化路径清晰。KV 缓存卸载（VAST + NVIDIA）、稀疏激活模型（Nemotron Cascade）、高性能运行时（Fox Rust 引擎）显示推理优化有三个方向：数据路径优化、模型架构优化、运行时优化。10x GPU 服务器效率提升显示硬件利用率有巨大空间，软件优化可以显著降低 TCO。

安全从"附加"走向"内生"。Check Point AI Factory 蓝图将安全集成到 AI 基础设施设计，而非事后添加。四层架构（LLM、应用、运行时、基础设施）显示 AI 安全是全栈问题，需要纵深防御。Upwind 使用 AI 驱动 API 安全（NVIDIA 模型）显示攻防竞赛进入 AI 时代——防御方和攻击方都在使用 AI。

开源运行时竞争加速。Fox Rust 引擎声称 2x 吞吐量显示 Python 税收显著，高性能场景需要更接近硬件的运行时。Rust、C++、Mojo 在 AI 运行时的重要性上升，Python 可能保持在应用层和原型层，生产环境下沉到系统语言。

对 AI 基础设施的影响：

Kubernetes 成为 AI 推理标准编排层
向量数据库集成到企业数据平台
智能体经济需要支付、钱包、身份基础设施
推理性能优化通过数据路径、模型架构、运行时三路径
安全是 AI 基础设施的内生需求
开源运行时创新降低硬件成本

市场成熟度评估： 云原生 AI 推理进入标准确立阶段（llm-d 入驻 CNCF），向量数据库进入企业集成阶段（Oracle AI Database），智能体经济进入基础设施阶段（支付、钱包、身份标准），推理优化进入生产优化阶段（KV 缓存卸载、高性能运行时）。四个并行阶段显示 AI 基础设施正在"全面落地"——编排层、数据层、经济层、优化层同时成熟。云原生社区（CNCF）、企业厂商（Oracle）、Web3 项目（MoonPay）、开源社区（Fox）多方推动，显示 AI 基础设施不再是"实验性项目"，而是"生产级系统"。