AI Infra Dao

AI Infra Brief|AI 原生调度器、安全运行时与智能体原生云(2026.03.24)

2026 年 3 月 24 日,编排、安全蓝图和智能体优先云平台取得具体进展,延续上周垂直整合硬件和智能体平台的发展趋势。

🧭 核心速览

🔄 CNCF Volcano 演进为 AI 原生统一调度器,支持智能体调度和分片

🔒 Check Point 发布 AI 工厂安全蓝图,四层参考架构

🛡️ Teleport Beams:为智能体提供可信隔离运行时

🏢 Core AI × Toto DTS 合资建设能源优化 AI 数据中心

🔑 BitGo 发布 MCP Server,连接智能体与机构加密工作流

📡 Circles 与华为合作 AI 原生电信解决方案

基础设施与编排

🔄 CNCF Volcano:AI 原生统一调度平台

根据 CNCF 博客 报道,Volcano v1.14 发布,演变为 AI 原生统一调度平台。新特性包括:可扩展多调度器与 Sharding Controller、Alpha 智能体调度器、Kthena v0.3.0(LLM 推理引擎,支持 prefill-decode 分离、ModelBooster、异构自动伸缩)、AgentCube(使用 MicroVM 沙箱的无服务器智能体组件,原生会话管理)。同时支持华为 Ascend vNPU 和 CPU/内存 QoS 增强。

调度器从批处理转向 AI 原生。Volcano 原为批处理调度器,演进为 AI 原生显示工作负载范式转移。智能体调度器、AgentCube、prefill-decode 分离都是针对 AI 工作负载优化——智能体需要长时间会话管理,推理需要分离计算阶段,无服务器智能体需要隔离沙箱。

**CNCF 生态拥抱 AI 工作负载。**Volcano 作为 CNCF 项目,其演进显示云原生基金会正在系统化地将 AI 能力融入调度、编排、运行时。这降低 AI 应用的云原生部署门槛,使 Kubernetes 集群可以直接运行智能体和推理工作负载。

🔒 Check Point:AI 工厂安全蓝图

根据 Check Point 报道,Check Point 发布 AI 工厂安全蓝图,四层参考架构:应用/LLM 层(智能体安全)、AI 基础设施层(通过 DOCA 的 NVIDIA BlueField DPU)、边界层(Maestro 超大规模防火墙、零信任)、工作负载/容器层(Kubernetes 微分段)。与 NIST AI RMF 和 Gartner AI TRiSM 对齐。

AI 安全需要纵深防御。四层架构显示 AI 工厂安全不能依赖单点防护,需要从 GPU 到治理的全栈覆盖。DPU 级防护、零信任边界、容器微分段形成纵深防御,智能体安全、推理安全、数据安全各有专门防护。

**安全标准化加速企业采用。**与 NIST AI RMF 和 Gartner AI TRiSM 对齐显示安全框架正在标准化。标准化的安全蓝图降低企业 AI 部署的合规风险,使安全从"定制方案"转向"可复用模板"。

🛡️ Teleport Beams:智能体可信运行时

根据 Teleport 报道,Teleport 发布 Beams,为智能体提供可信运行时。每个智能体运行在隔离的 Firecracker VM 中,内置身份、细粒度网络、完全审计,目标是消除 IAM 摩擦。MVP 计划于 2026 年 4 月 30 日发布。

智能体需要专用运行时隔离。智能体访问基础设施需要身份、权限、审计,但传统 IAM 为人类设计,与智能体工作流不匹配。Beams 为每个智能体提供隔离 VM 和内置身份,使智能体可以安全访问基础设施而无需复杂 IAM 配置。

**Firecracker 微 VM 提供轻量级隔离。**Beams 使用 Firecracker 微 VM 而非完整虚拟机,降低隔离开销。这使每个智能体可以有独立运行时,而不显著增加资源消耗,平衡了安全性和效率。

🏢 Core AI × Toto DTS:AI 数据中心合资

根据 GlobeNewswire 报道,Core AI 与 Toto DTS 宣布合资建设 AI 数据中心,计划建设面向高性能 AI 工作负载的能源优化园区。双方此前已交付 253 个数据中心、4.5+ GW 已安装 IT 容量,首个园区预计未来几周更新。

AI 数据中心的能源挑战。高性能 AI 工作负载(训练、推理)消耗大量电力,能源优化成为数据中心设计核心。Core AI-Toto DTS 合资显示专业数据中心运营商正在针对 AI 工作负载优化基础设施——电力、冷却、机架布局都需为 GPU 密集部署优化。

**数据中心专业化分工。**AI 数据中心与传统互联网数据中心有不同的技术要求(高功率密度、液冷、异构计算),专业运营商的合资加速 AI 基础设施规模化。4.5+ GW 已安装容量显示双方有大规模基础设施交付经验。

AI 原生基础设施平台

🔑 BitGo MCP Server:加密工作流集成

根据 Business Wire 报道,BitGo 发布 MCP Server,使 AI 智能体能够查询 BitGo 文档、API 和产品信息,涵盖托管、钱包、质押和结算;兼容 ChatGPT、Claude 和 VS Code。

MCP 连接智能体与机构服务。MCP (Model Context Protocol) 是智能体访问外部服务的标准化协议。BitGo MCP Server 显示机构级服务正在通过 MCP 向智能体开放,使智能体可以执行托管、交易、质押等金融操作。

**智能体进入机构金融场景。**BitGo 服务机构客户(交易所、基金、托管银行),其 MCP Server 使智能体可以代表机构执行加密操作。这显示智能体正在进入高监管、高安全的金融领域,前提是有标准化的安全协议(如 MCP)。

📡 Circles × 华为:AI 原生电信解决方案

根据 Intlbm 报道,Circles 与华为合作推出全球 AI 原生数字电信解决方案。集成策略/计费与 Circles 的数字 BSS SaaS,探索华为云上的 Circles 以支持主权就绪 AI 工作负载,目标实现实时货币化和 AI 驱动的策略优化。

电信行业的 AI 原生转型。电信运营商有海量用户数据、复杂计费策略、实时服务需求,AI 可以优化策略、实时定价、个性化服务。Circles-华为合作显示电信行业正在将 AI 集成到 BSS(业务支撑系统),使计费、策略、客户服务智能化。

主权就绪 AI 工作负载。“主权就绪"指数据本地化、合规性、数据主权。华为云上的 Circles 探索显示电信行业需要满足各国数据主权要求,AI 工作负载必须在本地部署、符合本地法规。

社区热议

💾 无服务器 GPU 市场分析

根据 Reddit 报道,社区分析无服务器 GPU 市场,比较弹性平台、失败透明度、冷启动、自动故障转移、供应商锁定;发现不同用户画像的权衡。

无服务器 GPU 进入红海市场。多个供应商(AWS、Lambda Labs、Replicate 等)提供无服务器 GPU,用户需要根据工作负载特征选择。冷启动延迟影响实时推理,供应商锁定影响迁移成本,失败透明度影响调试。

7MB 二进制权重 LLM 浏览器内运行

根据 Reddit 报道,5700 万参数模型使用 99.9% 二进制权重,作为 7MB HTML 文件通过 WebAssembly 在浏览器内运行,在 TinyStories 上训练,生成速度约 12 tokens/秒,具有离线和隐私优先意义。

极端模型压缩的潜力。7MB 模型显示通过二进制权重、量化、模型压缩,LLM 可以运行在极端受限环境(浏览器、移动端、IoT)。虽然能力有限(TinyStories 数据集),但证明极小模型的可行性。

**隐私优先的边缘 AI。**浏览器内运行意味着数据不离开设备,完全离线、隐私安全。这对医疗、金融、企业等隐私敏感场景有吸引力,小模型可以执行分类、摘要、检索等任务,无需云端推理。

🔬 开源实验性定制 NPU

根据 Reddit 报道,开发者开源实验性定制 NPU Array v1,目标实现高 TOPS/Watt 本地推理和大型模型的可负担执行;社区驱动的硬件探索。

社区推动 AI 硬件创新。开源 NPU 显示硬件创新不仅限于大公司,社区和开发者也在探索定制硬件。高 TOPS/Watt 意味着能效优化,对边缘 AI、移动 AI、本地推理至关重要。

**开放硬件降低创新门槛。**开源硬件设计使社区可以改进、定制、制造,加速创新迭代。如果 NPU Array v1 被广泛采用,可能形成类似 RISC-V 的开放硬件生态。

🖥️ Floci:开源 AWS 模拟器

根据 Hacker News 报道,Floci 是免费开源 AWS 模拟器,作为已停更的 LocalStack 社区版的本地替代;加速本地开发和 CI/CD,为智能体和应用减少云延迟和成本。

本地云模拟加速开发。云服务开发依赖云端 API,延迟高、成本高、调试难。Floci 在本地模拟 AWS,使开发者可以在本地测试智能体和应用,加速迭代、降低成本。

**CI/CD 集成降低云成本。**智能体和应用的 CI/CD 流程通常需要调用云服务,每次运行产生费用。Floci 本地模拟消除这些费用,同时提供与生产环境一致的 API,提高测试可靠性。

☁️ Nexlayer:智能体原生云

根据 X 报道,Nexlayer 定位智能体原生云,专注 AI 编码智能体和快速全栈与模型部署——定义一个消除传统 DevOps 复杂性的品类。

智能体原生云是新品类。传统云为人类开发者设计(控制台、CLI、YAML 配置),智能体原生云为智能体设计(API 优先、自动化部署、零配置)。Nexlayer 显示云服务商开始为智能体优化基础设施,降低智能体部署门槛。

**消除 DevOps 复杂性。**智能体部署需要创建资源、配置网络、设置负载均衡,这些传统 DevOps 操作对智能体是复杂抽象。智能体原生云通过 API 隐藏这些复杂性,智能体只需声明需求,云平台自动处理部署细节。

🔗 AINFT:TRON 基础 AI 基础设施

根据 X 报道,AINFT 提出基于 TRON 的 AI 基础设施愿景:可信链上数据、来自闲置硬件的去中心化计算、链上模型所有权、用于 DeFi/NFT 策略的自主智能体。

区块链与 AI 的深度融合。AINFT 愿景显示区块链可以解决 AI 基础设施的核心问题:链上数据确保数据可信,去中心化计算利用闲置资源,链上所有权确保模型版权。这类似于 Filecoin(存储)、Arweave(永久存储),但针对 AI 工作负载。

**智能体执行 DeFi/NFT 策略。**自主智能体可以分析市场、执行交易、优化收益,这是 DeFi 的自然应用场景。AINFT 将智能体与 DeFi 集成,显示 AI + DeFi 的巨大潜力——自动化、可编程、无需信任的金融操作。

🔍 Infra Insights

本日核心趋势: 智能体成为一等基础设施消费者、边缘和本地加速、安全设计、去中心化原语、专门调度、Crypto-AI 集成。

智能体成为一等基础设施消费者。Beams、Nexlayer、MCP Server 显示基础设施正在从"服务人类用户"转向"服务智能体”。智能体需要专用运行时(Beams)、原生云平台、标准化协议(MCP),而非复用人类工具。这种范式转移简化智能体部署,但也需要新的基础设施类别。

边缘和本地加速。7MB 二进制权重 LLM、开源 NPU、无服务器 GPU 显示 AI 计算正在从集中式云端向边缘和本地扩散。边缘计算降低延迟、保护隐私、减少云依赖,但需要模型压缩、能效硬件、本地调度。本地推理与云端推理的多层架构正在形成。

安全设计进入基栈。Check Point 四层蓝图、Teleport Beams 隔离运行时显示安全从"附加层"转向"内置层"。AI 工厂的安全不能事后添加,而要从设计阶段就考虑——GPU 级防护、零信任边界、智能体隔离、完全审计。安全设计降低企业 AI 部署风险。

去中心化原语支持智能体生态。AINFT 的链上数据、去中心化计算、链上所有权显示区块链可以为智能体提供可信基础设施。数据不可篡改、计算可验证、所有权明确,这些特性解决 AI 的信任、激励、治理问题。去中心化 AI 可能与中心化云 AI 形成互补。

专门调度优化 AI 工作负载。Volcano 的智能体调度器、prefill-decode 分离、AgentCube 显示 AI 工作负载需要专门调度。推理的 prefill 和 decode 阶段有不同资源需求(计算密集 vs 内存密集),分离可以提高效率。智能体需要长时间会话和状态管理,传统无服务器调度不适合。AI 原生调度器识别这些特征并优化。

Crypto-AI 集成加速。BitGo MCP Server、AINFT TRON 基础设施显示加密和 AI 在快速融合。智能体可以执行加密操作(交易、质押、托管),加密基础设施可以为智能体提供信任层(链上数据、去中心化计算)。这种集成使智能体可以进入金融、DeFi、NFT 等高价值场景。

对 AI 基础设施的影响:

  • 智能体专用运行时和云平台降低部署门槛

  • 边缘 AI 和本地推理减少云依赖和延迟

  • 安全设计使企业 AI 部署更合规、更可靠

  • 去中心化基础设施提供可信和激励层

  • AI 原生调度器优化资源利用和工作负载性能

  • Crypto-AI 集成使智能体进入金融和 Web3 场景

市场成熟度评估: AI 基础设施进入品类定义阶段。智能体原生云、可信运行时、AI 工厂安全蓝图显示市场从"技术探索"转向"品类定义"。新的基础设施类别(智能体原生云、可信运行时)正在与传统基础设施(Kubernetes、云服务)分层或融合。CNCF、云服务商、安全厂商都在系统化地将 AI 能力融入现有平台,显示 AI 基础设施正在成为主流技术栈的标准组件。