AI Infra Dao

AI Infra Brief|开源模型与 Agent 原生基础设施(2026.03.01)

2026 年 3 月 1 日,开源模型发布、量化技术和 Agent 原生基础设施领域迎来重要更新。阿里巴巴在 Apache 2.0 许可下开源 Qwen3.5-122B 和 Qwen3.5-35B,声称性能可媲美 Sonnet 4.5,面向高效本地部署。Unsloth Dynamic 2.0 推出 KL 散度校准的 4 位/5 位量化,首次支持非 MoE 模型。多个 Agent 基础设施框架涌现:Athena-Public(面向 AI Agent 的 Linux OS)、ClawRouter(本地 Agent 原生 LLM 路由器)、Ruflo(Agent 编排框架)和 Tether(LLM 到 LLM 消息传递)。中兴通讯还发布了包含 AI 原生 GigaMIMO 设计的 6G 路线图。

🧭 核心速览

🤖 阿里巴巴:开源 Qwen3.5-122B/35B(Apache 2.0)

⚡ Unsloth Dynamic 2.0:KL 散度校准量化

🖥️ Athena-Public:面向 AI Agent 的 Linux OS 发布

🔀 ClawRouter:开源本地 Agent 原生 LLM 路由器

🎼 Ruflo:AI Agent 编排框架

📨 Tether:内容寻址 LLM 到 LLM 消息传递

📡 中兴通讯:发布 6G 路线图与 GigaMIMO

模型发布与开源

🤖 阿里巴巴:开源 Qwen3.5-122B/35B(Apache 2.0)

根据 Hacker News 报道,阿里巴巴在 Apache 2.0 许可下开源 Qwen3.5-122B 和 Qwen3.5-35B,声称在本地硬件上性能可媲美 Sonnet 4.5,面向高效本地部署。

Apache 2.0 许可和对本地部署的关注,标志着开源模型在能够与专有前沿模型竞争的同时,可在商品硬件上运行迈出了重要一步。

量化与推理优化

⚡ Unsloth Dynamic 2.0:KL 散度校准量化

根据 Hacker News 报道,Unsloth Dynamic 2.0 推出 KL 散度校准的 4 位/5 位量化(Q4_NL、Q5.1、Q5.0、Q4.1、Q4.0),首次支持非 MoE 模型,旨在保持 Qwen3.5、Llama 4 和 Gemma 3 的对话质量。

KL 散度校准为量化提供了原则性方法,可最小化量化模型与全精度模型之间的分布偏移,在降低内存和计算需求的同时保持模型质量。

🔧 Claude Code 技巧:上下文窗口减少 98%

根据 Hacker News 报道,一种 Claude Code 技术报告称通过提示重构和输出过滤,上下文窗口使用量减少 98%,实现了更长、更复杂的 Agent 链。

高效的上下文管理对于需要维护多轮对话和工具调用历史而不触及 token 限制的 Agent 系统至关重要。

Agent 基础设施与框架

🖥️ Athena-Public:面向 AI Agent 的 Linux OS

根据 Hacker NewsGithub 报道,Athena-Public 是一个面向 AI Agent 的 Linux OS,具有持久化内存、时间感知、LLM 无关切换、110+ Agent 协议和 50+ 斜杠命令。

Agent 原生操作系统代表了一种范式转变,从将 Agent 视为应用程序转向将 Agent 视为具有自己操作系统级抽象的一等计算公民。

🔀 ClawRouter:开源本地 Agent 原生 LLM 路由器

根据 Hacker NewsGithub 报道,ClawRouter 是一个开源的本地 Agent 原生 LLM 路由器,支持 41+ 模型,具有非托管 USDC 支付、亚 1ms 路由和 15 维模型评分——无需 API 密钥或云依赖。

采用本地优先设计和亚毫秒级延迟的 Agent 原生路由,使得构建可靠的 Agent 系统成为可能,这些系统可以在无需云依赖或供应商锁定的情况下动态切换模型。

🎼 Ruflo:AI Agent 编排框架

根据 Github 报道,Ruflo 是一个 AI Agent 编排框架,将 Claude Code 定位为多 Agent 开发平台,拥有 16.5k GitHub 星标和 1.9k 分叉。

多 Agent 编排框架正成为协调多个专业化 Agent 以完成复杂任务的关键层。

📨 Tether:内容寻址 LLM 到 LLM 消息传递

根据 Github 报道,Tether 通过共享的 SQLite"邮局"提供内容寻址的 LLM 到 LLM 消息传递,实现了直接的机器对机器通信模式。

面向 LLM 的内容寻址消息传递创建了一个新的 Agent 对 Agent 通信原语,与以人为中心的接口解耦。

无线与 6G

📡 中兴通讯:发布 6G 路线图与 GigaMIMO

根据 Rcrwireless 报道,中兴通讯发布了 6G 路线图,包含 GigaMIMO——一种 AI 原生设计,在无线边缘集成计算、存储和控制,用于空天地海一体化愿景中的低延迟 Agent 通信。

AI 原生 6G 设计直接在无线边缘集成计算资源,为在地面和非地面网络上运行的自主 Agent 实现超低延迟通信。

🔍 Infra Insights

本日核心趋势:开源模型效率Agent 原生基础设施量化创新

阿里巴巴在 Apache 2.0 下发布的 Qwen3.5 继续了开源模型缩小与专有前沿模型差距的趋势,特别强调本地部署能力而不仅仅是基准性能。Unsloth Dynamic 2.0 的 KL 散度校准量化代表了一种更原则性的模型压缩方法,可保持对话质量。

多个 Agent 基础设施框架(Athena-Public、ClawRouter、Ruflo、Tether)的出现,标志着"Agent 原生"计算的兴起——一种将 Agent 视为一等计算原语的范式,它们具有自己的操作系统、路由和消息传递层,而不是运行在传统以人为中心的系统上的应用程序。

中兴通讯的 GigaMIMO 6G 愿景展示了无线基础设施如何演进而支持 Agent 通信,在无线边缘集成计算、存储和控制,实现超低延迟的机器对机器交互。

这些发展共同推动了本地部署能力、高效推理和 Agent 原生自主性——继续向为自主 Agent 优化而非以人为中心的交互的集成 AI 基础设施转变。