AI Infra Dao

AI Infra Brief|多模态模型轻量化与算力军备竞赛(2026.02.08)

2026 年 2 月 8 日,多模态模型轻量化加速,AI 算力军备竞赛升温,Agent 工具生态持续丰富。

🧭 核心速览

🧬 Z.ai 发布 GLM-OCR 0.9B 轻量级 OCR 模型

🚀 OpenBMB 推出 MiniCPM-o 4.5 实时多模态模型

🌐 Sarvam AI 发布支持印度 22 种语言的文档理解模型

🏢 超大规模云厂商 2026 年 AI 支出预计达 6350-6650 亿美元

🎯 博通押注定制 AI 芯片挑战英伟达

⚡ 英特尔挖角前 AMD 首席 GPU 架构师,目标 2027 年抢占数据中心 GPU 市场

⭐ Holy Grail AI System 自主开发 Agent PoC 上线

算力与云基础设施

🏢 超大规模云厂商 2026 年 AI 支出预计达 6350-6650 亿美元

根据 Trefis 报道,2026 年超大规模云厂商的 AI 支出预计将从 2025 年的 3810 亿美元激增至 6350-6650 亿美元,其中亚马逊预计投入 2000 亿美元。受此消息影响,英伟达股价在 2 月 7 日上涨 7.9%。

🎯 博通押注定制 AI 芯片挑战英伟达

根据 MLQ 报道,博通正押注 ASIC 定制芯片,预计下季度收入翻倍,在超大规模云厂商转向定制硅片的趋势下,直接挑战英伟达在生成式 AI 推理领域的主导地位。

⚡ 英特尔挖角前 AMD 首席 GPU 架构师,目标 2027 年抢占数据中心 GPU 市场

根据 Nova Edge Digital Labs 报道,英特尔聘请前 AMD 首席 GPU 架构师 Eric Demers,依托 18A 制程工艺和更具侵略性的定价策略,计划在 2027 年大规模推出 “AI chips 2026” 系列,目标抢占 500 亿美元数据中心 GPU 市场,挑战英伟达 92% 的市场份额。

开源生态

🧬 Z.ai 发布 GLM-OCR 0.9B 轻量级 OCR 模型

根据 LinkedIn 报道,Z.ai 发布 GLM-OCR,这是一款 0.9B 参数的轻量级 OCR 模型,专门用于从图像和 PDF 中提取文本、表格和公式,旨在实现高精度和高速度。

🚀 OpenBMB 推出 MiniCPM-o 4.5 实时多模态模型

根据 LinkedIn 报道,OpenBMB 发布 MiniCPM-o 4.5,针对文本和图像的实时多模态任务进行了优化。

🌐 Sarvam AI 发布支持印度 22 种语言的文档理解模型

根据 LinkedIn 报道,Sarvam AI 发布 Sarvam Vision,支持印度 22 种语言和文字的文档理解,能够从图像和扫描件中提取文本、表格、图表和布局信息。

⭐ Holy Grail AI System 自主开发 Agent PoC 上线

根据 GitHub 项目页面,Holy Grail AI System 是一个自主开发 Agent 的概念验证(PoC)系统,具备有状态记忆、实时网络访问和伪自我改进能力。

🔧 Termiteam v1.0.0 多 Agent 终端管理控制中心发布

根据 GitHub 发布,Termiteam v1.0.0 是一个用于管理多个 AI Agent 终端的团队协作控制中心。

🔧 TRION 管道更新:Skill Servers IDE 与 Container Commander

根据 Reddit 讨论,TRION 发布了多项更新,包括带 Draft Mode 审批的 Skill Servers IDE,以及用于安全隔离运行的 Container Commander,支持密钥保管库和生命周期控制。

模型推理与 Serving

🛡️ Vishal Sikka 倡导"验证为中心的设计"

根据 The Register 报道,前 Infosys CEO Vishal Sikka 倡导通过"companion bots"为 LLM 添加护栏,以在任务关键场景下确保可靠性。

部署与运维

⚡️ vLLM/NVIDIA NIM 在 NVIDIA GB10 (Blackwell) ARM v9.2 上部署遇兼容性问题

根据 Reddit 讨论,早期用户报告在 NVIDIA GB10 (Blackwell) ARM v9.2 架构上运行 vLLM 和 NVIDIA NIM 时,由于驱动和 wheel 包缺失遇到兼容性问题。

🔗 区块链上的 AI 原生基础设施提案涌现

根据多个 X 平台讨论,社区正在探讨链上记忆/推理、可验证计算、微支付和零费用共识等方向,以支持 24/7 Agent 运营。

🔍 Infra Insights

本日新闻共同指向 AI 基础设施的核心趋势:多模态模型轻量化算力军备竞赛白热化

一方面,Z.ai、OpenBMB、Sarvam AI 等机构纷纷推出轻量级多模态模型,降低部署门槛,加速边缘场景落地。另一方面,超大规模云厂商 2026 年 AI 支出预计接近翻倍,博通、英特尔等传统芯片厂商通过定制芯片和人才挖角挑战英伟达的绝对主导地位。Agent 工具生态层面,Holy Grail AI System、Termiteam、TRION 等项目让自主开发和编排变得更加便捷,但 bleeding-edge 硬件上的部署摩擦仍需时间解决。