AI Infra Brief｜AI 原生调度器、安全运行时与智能体原生云（2026.03.24）

2026 年 3 月 24 日，编排、安全蓝图和智能体优先云平台取得具体进展，延续上周垂直整合硬件和智能体平台的发展趋势。

🧭 核心速览

🔄 CNCF Volcano 演进为 AI 原生统一调度器，支持智能体调度和分片

🔒 Check Point 发布 AI 工厂安全蓝图，四层参考架构

🛡️ Teleport Beams：为智能体提供可信隔离运行时

🏢 Core AI × Toto DTS 合资建设能源优化 AI 数据中心

🔑 BitGo 发布 MCP Server，连接智能体与机构加密工作流

📡 Circles 与华为合作 AI 原生电信解决方案

基础设施与编排

🔄 CNCF Volcano：AI 原生统一调度平台

根据 CNCF 博客报道，Volcano v1.14 发布，演变为 AI 原生统一调度平台。新特性包括：可扩展多调度器与 Sharding Controller、Alpha 智能体调度器、Kthena v0.3.0（LLM 推理引擎，支持 prefill-decode 分离、ModelBooster、异构自动伸缩）、AgentCube（使用 MicroVM 沙箱的无服务器智能体组件，原生会话管理）。同时支持华为 Ascend vNPU 和 CPU/内存 QoS 增强。

调度器从批处理转向 AI 原生。Volcano 原为批处理调度器，演进为 AI 原生显示工作负载范式转移。智能体调度器、AgentCube、prefill-decode 分离都是针对 AI 工作负载优化——智能体需要长时间会话管理，推理需要分离计算阶段，无服务器智能体需要隔离沙箱。

**CNCF 生态拥抱 AI 工作负载。**Volcano 作为 CNCF 项目，其演进显示云原生基金会正在系统化地将 AI 能力融入调度、编排、运行时。这降低 AI 应用的云原生部署门槛，使 Kubernetes 集群可以直接运行智能体和推理工作负载。

🔒 Check Point：AI 工厂安全蓝图

根据 Check Point 报道，Check Point 发布 AI 工厂安全蓝图，四层参考架构：应用/LLM 层（智能体安全）、AI 基础设施层（通过 DOCA 的 NVIDIA BlueField DPU）、边界层（Maestro 超大规模防火墙、零信任）、工作负载/容器层（Kubernetes 微分段）。与 NIST AI RMF 和 Gartner AI TRiSM 对齐。

AI 安全需要纵深防御。四层架构显示 AI 工厂安全不能依赖单点防护，需要从 GPU 到治理的全栈覆盖。DPU 级防护、零信任边界、容器微分段形成纵深防御，智能体安全、推理安全、数据安全各有专门防护。

**安全标准化加速企业采用。**与 NIST AI RMF 和 Gartner AI TRiSM 对齐显示安全框架正在标准化。标准化的安全蓝图降低企业 AI 部署的合规风险，使安全从"定制方案"转向"可复用模板"。

🛡️ Teleport Beams：智能体可信运行时

根据 Teleport 报道，Teleport 发布 Beams，为智能体提供可信运行时。每个智能体运行在隔离的 Firecracker VM 中，内置身份、细粒度网络、完全审计，目标是消除 IAM 摩擦。MVP 计划于 2026 年 4 月 30 日发布。

智能体需要专用运行时隔离。智能体访问基础设施需要身份、权限、审计，但传统 IAM 为人类设计，与智能体工作流不匹配。Beams 为每个智能体提供隔离 VM 和内置身份，使智能体可以安全访问基础设施而无需复杂 IAM 配置。

**Firecracker 微 VM 提供轻量级隔离。**Beams 使用 Firecracker 微 VM 而非完整虚拟机，降低隔离开销。这使每个智能体可以有独立运行时，而不显著增加资源消耗，平衡了安全性和效率。

🏢 Core AI × Toto DTS：AI 数据中心合资

根据 GlobeNewswire 报道，Core AI 与 Toto DTS 宣布合资建设 AI 数据中心，计划建设面向高性能 AI 工作负载的能源优化园区。双方此前已交付 253 个数据中心、4.5+ GW 已安装 IT 容量，首个园区预计未来几周更新。

AI 数据中心的能源挑战。高性能 AI 工作负载（训练、推理）消耗大量电力，能源优化成为数据中心设计核心。Core AI-Toto DTS 合资显示专业数据中心运营商正在针对 AI 工作负载优化基础设施——电力、冷却、机架布局都需为 GPU 密集部署优化。

**数据中心专业化分工。**AI 数据中心与传统互联网数据中心有不同的技术要求（高功率密度、液冷、异构计算），专业运营商的合资加速 AI 基础设施规模化。4.5+ GW 已安装容量显示双方有大规模基础设施交付经验。

AI 原生基础设施平台

🔑 BitGo MCP Server：加密工作流集成

根据 Business Wire 报道，BitGo 发布 MCP Server，使 AI 智能体能够查询 BitGo 文档、API 和产品信息，涵盖托管、钱包、质押和结算；兼容 ChatGPT、Claude 和 VS Code。

MCP 连接智能体与机构服务。MCP (Model Context Protocol) 是智能体访问外部服务的标准化协议。BitGo MCP Server 显示机构级服务正在通过 MCP 向智能体开放，使智能体可以执行托管、交易、质押等金融操作。

**智能体进入机构金融场景。**BitGo 服务机构客户（交易所、基金、托管银行），其 MCP Server 使智能体可以代表机构执行加密操作。这显示智能体正在进入高监管、高安全的金融领域，前提是有标准化的安全协议（如 MCP）。

📡 Circles × 华为：AI 原生电信解决方案

根据 Intlbm 报道，Circles 与华为合作推出全球 AI 原生数字电信解决方案。集成策略/计费与 Circles 的数字 BSS SaaS，探索华为云上的 Circles 以支持主权就绪 AI 工作负载，目标实现实时货币化和 AI 驱动的策略优化。

电信行业的 AI 原生转型。电信运营商有海量用户数据、复杂计费策略、实时服务需求，AI 可以优化策略、实时定价、个性化服务。Circles-华为合作显示电信行业正在将 AI 集成到 BSS（业务支撑系统），使计费、策略、客户服务智能化。

主权就绪 AI 工作负载。“主权就绪"指数据本地化、合规性、数据主权。华为云上的 Circles 探索显示电信行业需要满足各国数据主权要求，AI 工作负载必须在本地部署、符合本地法规。

社区热议

💾 无服务器 GPU 市场分析

根据 Reddit 报道，社区分析无服务器 GPU 市场，比较弹性平台、失败透明度、冷启动、自动故障转移、供应商锁定；发现不同用户画像的权衡。

无服务器 GPU 进入红海市场。多个供应商（AWS、Lambda Labs、Replicate 等）提供无服务器 GPU，用户需要根据工作负载特征选择。冷启动延迟影响实时推理，供应商锁定影响迁移成本，失败透明度影响调试。

7MB 二进制权重 LLM 浏览器内运行

根据 Reddit 报道，5700 万参数模型使用 99.9% 二进制权重，作为 7MB HTML 文件通过 WebAssembly 在浏览器内运行，在 TinyStories 上训练，生成速度约 12 tokens/秒，具有离线和隐私优先意义。

极端模型压缩的潜力。7MB 模型显示通过二进制权重、量化、模型压缩，LLM 可以运行在极端受限环境（浏览器、移动端、IoT）。虽然能力有限（TinyStories 数据集），但证明极小模型的可行性。

**隐私优先的边缘 AI。**浏览器内运行意味着数据不离开设备，完全离线、隐私安全。这对医疗、金融、企业等隐私敏感场景有吸引力，小模型可以执行分类、摘要、检索等任务，无需云端推理。

🔬 开源实验性定制 NPU

根据 Reddit 报道，开发者开源实验性定制 NPU Array v1，目标实现高 TOPS/Watt 本地推理和大型模型的可负担执行；社区驱动的硬件探索。

社区推动 AI 硬件创新。开源 NPU 显示硬件创新不仅限于大公司，社区和开发者也在探索定制硬件。高 TOPS/Watt 意味着能效优化，对边缘 AI、移动 AI、本地推理至关重要。

**开放硬件降低创新门槛。**开源硬件设计使社区可以改进、定制、制造，加速创新迭代。如果 NPU Array v1 被广泛采用，可能形成类似 RISC-V 的开放硬件生态。

🖥️ Floci：开源 AWS 模拟器

根据 Hacker News 报道，Floci 是免费开源 AWS 模拟器，作为已停更的 LocalStack 社区版的本地替代；加速本地开发和 CI/CD，为智能体和应用减少云延迟和成本。

本地云模拟加速开发。云服务开发依赖云端 API，延迟高、成本高、调试难。Floci 在本地模拟 AWS，使开发者可以在本地测试智能体和应用，加速迭代、降低成本。

**CI/CD 集成降低云成本。**智能体和应用的 CI/CD 流程通常需要调用云服务，每次运行产生费用。Floci 本地模拟消除这些费用，同时提供与生产环境一致的 API，提高测试可靠性。

☁️ Nexlayer：智能体原生云

根据 X 报道，Nexlayer 定位智能体原生云，专注 AI 编码智能体和快速全栈与模型部署——定义一个消除传统 DevOps 复杂性的品类。

智能体原生云是新品类。传统云为人类开发者设计（控制台、CLI、YAML 配置），智能体原生云为智能体设计（API 优先、自动化部署、零配置）。Nexlayer 显示云服务商开始为智能体优化基础设施，降低智能体部署门槛。

**消除 DevOps 复杂性。**智能体部署需要创建资源、配置网络、设置负载均衡，这些传统 DevOps 操作对智能体是复杂抽象。智能体原生云通过 API 隐藏这些复杂性，智能体只需声明需求，云平台自动处理部署细节。

🔗 AINFT：TRON 基础 AI 基础设施

根据 X 报道，AINFT 提出基于 TRON 的 AI 基础设施愿景：可信链上数据、来自闲置硬件的去中心化计算、链上模型所有权、用于 DeFi/NFT 策略的自主智能体。

区块链与 AI 的深度融合。AINFT 愿景显示区块链可以解决 AI 基础设施的核心问题：链上数据确保数据可信，去中心化计算利用闲置资源，链上所有权确保模型版权。这类似于 Filecoin（存储）、Arweave（永久存储），但针对 AI 工作负载。

**智能体执行 DeFi/NFT 策略。**自主智能体可以分析市场、执行交易、优化收益，这是 DeFi 的自然应用场景。AINFT 将智能体与 DeFi 集成，显示 AI + DeFi 的巨大潜力——自动化、可编程、无需信任的金融操作。

🔍 Infra Insights

本日核心趋势： 智能体成为一等基础设施消费者、边缘和本地加速、安全设计、去中心化原语、专门调度、Crypto-AI 集成。

智能体成为一等基础设施消费者。Beams、Nexlayer、MCP Server 显示基础设施正在从"服务人类用户"转向"服务智能体”。智能体需要专用运行时（Beams）、原生云平台、标准化协议（MCP），而非复用人类工具。这种范式转移简化智能体部署，但也需要新的基础设施类别。

边缘和本地加速。7MB 二进制权重 LLM、开源 NPU、无服务器 GPU 显示 AI 计算正在从集中式云端向边缘和本地扩散。边缘计算降低延迟、保护隐私、减少云依赖，但需要模型压缩、能效硬件、本地调度。本地推理与云端推理的多层架构正在形成。

安全设计进入基栈。Check Point 四层蓝图、Teleport Beams 隔离运行时显示安全从"附加层"转向"内置层"。AI 工厂的安全不能事后添加，而要从设计阶段就考虑——GPU 级防护、零信任边界、智能体隔离、完全审计。安全设计降低企业 AI 部署风险。

去中心化原语支持智能体生态。AINFT 的链上数据、去中心化计算、链上所有权显示区块链可以为智能体提供可信基础设施。数据不可篡改、计算可验证、所有权明确，这些特性解决 AI 的信任、激励、治理问题。去中心化 AI 可能与中心化云 AI 形成互补。

专门调度优化 AI 工作负载。Volcano 的智能体调度器、prefill-decode 分离、AgentCube 显示 AI 工作负载需要专门调度。推理的 prefill 和 decode 阶段有不同资源需求（计算密集 vs 内存密集），分离可以提高效率。智能体需要长时间会话和状态管理，传统无服务器调度不适合。AI 原生调度器识别这些特征并优化。

Crypto-AI 集成加速。BitGo MCP Server、AINFT TRON 基础设施显示加密和 AI 在快速融合。智能体可以执行加密操作（交易、质押、托管），加密基础设施可以为智能体提供信任层（链上数据、去中心化计算）。这种集成使智能体可以进入金融、DeFi、NFT 等高价值场景。

对 AI 基础设施的影响：

智能体专用运行时和云平台降低部署门槛
边缘 AI 和本地推理减少云依赖和延迟
安全设计使企业 AI 部署更合规、更可靠
去中心化基础设施提供可信和激励层
AI 原生调度器优化资源利用和工作负载性能
Crypto-AI 集成使智能体进入金融和 Web3 场景

市场成熟度评估： AI 基础设施进入品类定义阶段。智能体原生云、可信运行时、AI 工厂安全蓝图显示市场从"技术探索"转向"品类定义"。新的基础设施类别（智能体原生云、可信运行时）正在与传统基础设施（Kubernetes、云服务）分层或融合。CNCF、云服务商、安全厂商都在系统化地将 AI 能力融入现有平台，显示 AI 基础设施正在成为主流技术栈的标准组件。