AI Infra Dao

AI Infra Brief|AI 原生网络与企业级 LLM Serving(2026.03.04)

2026 年 3 月 4 日,AI 原生网络基础设施加速落地,企业级 LLM Serving 走向云原生集成,开源生态在端侧推理、Agent 框架和本地优先工具领域持续突破。

🧭 核心速览

🏢 微软 AKS 集成 Ray,企业级 LLM 推理统一计费

🌐 华为 TICC 2.0 统一 CPU 与 xPU 调度

🌐 ZTE AIR MAX 移动网络降耗 40%

⭐ 13 家公司结盟推动 6G 开源 AI 原生平台

💻 Encord 获 6000 万美元 C 轮融资

📱 Moonshine 实现 macOS 端侧隐私转录

🔧 IronClaw 和 CogniLayer 推动 Agent 框架开源

⭐ GLM-5 和 MiniMax M2.5 开源模型发布

算力与云基础设施

🏢 微软 × Anyscale:Ray on AKS 统一企业级 LLM 推理

根据 Microsoft TechCommunity 博客,微软与 Anyscale 合作将 Ray 集成至 Azure Kubernetes Service,提供统一计费、Entra ID 身份认证和数据主权支持,面向企业级 LLM 推理和资本效率优化。

Ray on AKS 将企业级 LLM 推理带入云原生时代,统一计费和身份认证降低了部署摩擦。

🌐 华为 TICC 2.0:从云原生到 AI 原生

根据 Huawei 官方新闻,华为发布 TICC 2.0 融合架构,通过统一调度跨越 CPU 和异构 xPU,推动电信云从云原生向 AI 原生转型、从被动管道向主动 AI 引擎演进。

TICC 2.0 标志着电信基础设施正在成为 AI 计算的核心节点,而非仅仅是数据传输通道。

💻 Encord 获 6000 万美元 C 轮融资

根据 The AI Insider 报道,Encord 获得 6000 万美元 C 轮融资,用于扩展 AI 原生数据基础设施,专注于精选训练数据。

数据基础设施融资凸显数据正成为 AI 栈的第一层,而非模型的附庸。

电信与网络基础设施

🌐 ZTE AIR MAX:移动网络 AI 原生栈

根据 ZTE 官方新闻,中兴在 MWC 发布 AIR MAX 解决方案,提供 10 模块三层 AI 原生移动网络栈,目标降低 35-40% 能耗、提升 20% 频谱效率。

电信设备商正通过 AI 原生架构解决移动网络的能耗与效率问题。

🌐 三星 × 沃达丰:欧洲首个 AI 原生 vRAN 呼叫

根据 TechBuzz 报道,三星与沃达丰在 Intel Xeon 6 SoC 上完成欧洲首个 AI 原生 vRAN 呼叫,在单一服务器上整合 2G/4G/5G。

AI 原生 vRAN 将多代移动网络整合至单一服务器,显著降低硬件复杂度和能耗。

⭐ 13 家公司结盟 6G 开源 AI 原生平台

根据 NVIDIA 官方新闻,13 家以上公司组建联盟,承诺在开放安全的 AI 原生平台上构建 6G。NVIDIA 发布开源工具包括 30B 参数的 Nemotron 大型电信模型(LTM)。

6G 从设计之初就拥抱 AI 原生和开源,避免 5G 时代的专有割裂。

开源生态与框架

📱 Moonshine Note Taker:macOS 端侧隐私转录

根据 Adafruit 博客 报道,Moonshine Note Taker 发布免费开源的 macOS 端侧转录应用,强调隐私优先,所有处理在本地完成。

端侧 AI 工具正从尝鲜走向实用,隐私成为核心差异化卖点。

🔧 IronClaw:隐私优先的 Rust Agent 框架

根据 X/Twitter 讨论社区热推,IronClaw 是专注隐私和安全的 Rust Agent 框架,正在获得社区关注。

Agent 框架的安全性和隐私保护成为开发者核心关切。

🔧 CogniLayer v4:Claude Code 代码智能 MCP 服务器

根据 Reddit 讨论,CogniLayer v4 发布开源 MCP 服务器,为 Claude Code 提供 AST 解析、符号解析、影响范围分析和本地 SQLite 持久化。

MCP 协议生态正在快速繁荣,代码智能成为首批落地场景。

⭐ GLM-5 和 MiniMax M2.5 开源模型发布

根据 [X/Twitter](https://x.com/HHegan19531/status/2028464149622370709, https://x.com/latecnologialat/status/2028754513595646283) 讨论,GLM-5 大语言模型在 Hugging Face 开源,MiniMax M2.5 开源模型据称在 Notion Custom Agents 中匹配 Claude Opus 性能。

开源模型正快速逼近闭源模型性能,Agent 场景成为重要测试场。

社区讨论与趋势

⭐ Anthropic 支持开源 PostgreSQL 备份工具

根据 Reddit 讨论,Anthropic 为开源 PostgreSQL 备份工具提供支持,并附带 Claude Max 访问权限。

AI 实验室开始直接投资关键基础设施工具,而非仅关注模型本身。

📱 Qwen3.5-9B 本地推理 30 tok/s

根据 Reddit 讨论,Qwen3.5-9B 在 6GB 显存下实现 30 tok/s 推理速度,社区倾向于更小模型以适配消费级硬件。

本地推理的实用化路径清晰:7B-9B 参数规模配合量化,在消费级硬件上实现可用速度。

🔧 Agent 基础设施生态获融资

根据 SiliconAngle 报道,Agent 基础设施的公司(治理、编排、集成栈)正在获得新一轮融资。

Agent 基础设施成为独立赛道,资本开始押注于 Agent 生态的中间层。

🔍 Infra Insights

本日核心趋势:AI 原生网络落地企业级 LLM Serving 云原生化开源 Agent 框架爆发

微软 AKS 集成 Ray、华为 TICC 2.0 统一 xPU 调度、ZTE AIR MAX 降耗 40%,显示 AI 原生正从概念走向现网部署 — 电信和企业网络不再是被动管道,而是主动 AI 引擎。开源侧的 Moonshine、IronClaw、CogniLayer 共同指向同一方向:本地优先、隐私保护的 Agent 基础设施正在崛起。

Encord 6000 万美元融资和 Anthropic 支持 PostgreSQL 备份工具,则凸显一个被低估的趋势:数据质量和关键基础设施正成为 AI 栈的第一层,而非模型的附庸。6G 联盟从设计之初拥抱开源,避免了 5G 时代的专有割裂。