AI Infra Brief｜实时模型与 AI 原生基础设施加速（2026.03.28）

2026 年 3 月 28 日，实时多模态推理和 AI 原生平台加速发展，安全合规工具向设计时内嵌演进。

🧭 核心速览

🎯 Google 发布 Gemini 3.1 Flash Live 实时多模态语音模型

🏢 SUSE 推出 AI 原生基础设施和 Liz 上下文感知 Agent

☁️ Nebius AI Cloud 3.5 “Aether” 引入 Serverless AI

🔒 Check Point 发布 AI 工厂安全蓝图覆盖四层架构

🔌 Topsort 推出 MCP 服务器连接零售媒体与 Agent 工作流

🧪 forgelm 和 agent-forensics 发布，强化合规工具链

📊 WriteBack-RAG 和 PackForcing 推动推理边界探索

模型推理与优化

🎯 Google 发布 Gemini 3.1 Flash Live 实时多模态语音模型

根据 Marktechpost 报道，Google 发布 Gemini 3.1 Flash Live，这是一个针对低延迟音频、视频和工具使用优化的实时多模态语音模型，通过 Google AI Studio 的 Gemini Live API 提供服务。

实时多模态能力是语音助手、实时翻译和互动 AI 应用的关键基础设施。Flash Live 的出现降低了延迟敏感场景的开发门槛。

📦 PackForcing 在单张 H200 上实现高效长视频生成

根据 arXiv 论文，PackForcing 详细描述了一种 KV 缓存分区策略，实现在单张 H200 GPU 上高效生成长视频。

KV 缓存优化是长序列生成的核心瓶颈。PackForcing 的分区策略为资源受限环境下的长视频生成提供了可行路径。

🔢 PentaNet 探索五元量化

根据 Reddit 讨论，PentaNet 探索五元量化以增加每个权重的信息量，同时保留零乘法器优势。

量化是降低推理成本的关键技术。从二进制、三进制到五元，信息密度提升带来性能与效率的权衡。

⚡ Qwen 3.5 在 B200 上实现 110 万 tokens/秒

根据 Reddit 讨论，Qwen 3.5 在 96 张 B200 GPU 上使用 vLLM v0.18.0 实现 110 万 tokens/秒，DP 优于 TP，网关开销 35%。

B200 作为最新 GPU 的性能基准为生产部署提供参考。并行策略和网关开销的对比是架构设计的关键输入。

企业级 AI 部署

🏢 SUSE 推出 AI 原生基础设施和 Liz 上下文感知 Agent

根据 Let’s Data Science 报道，SUSE 发布 AI 原生基础设施，包括上下文感知 Agent “Liz”、MCP 集成和 NVIDIA MIG GPU 分区，统一 AI、容器和虚拟机，实现自动化运维。

传统基础设施厂商向 AI 原生转型标志着 AI 工作负载成为企业标配。Liz 作为上下文感知 Agent 代表了运维自动化的新方向。

☁️ Nebius AI Cloud 3.5 “Aether” 引入 Serverless AI

根据 TradingView 报道，Nebius 发布 AI Cloud 3.5 “Aether”，增加 Serverless AI 用于即时工作负载，支持 RTX PRO 6000 Blackwell Server Edition GPU，增强数据传输服务。

Serverless AI 去除基础设施管理负担，适合突发性和不确定性的 AI 工作负载。Blackwell GPU 支持确保最新硬件可访问性。

🔒 Check Point 发布 AI 工厂安全蓝图覆盖四层架构

根据 TradingView 报道，Check Point 发布 AI 工厂安全蓝图，跨越应用/LLM、边界、工作负载/容器和硬件四层，集成 NVIDIA BlueField DPU，符合 NIST AI RMF 和 Gartner AI TRiSM 标准。

AI 工厂安全需要从硬件到应用的纵深防御。Check Point 的蓝图将 DPU 硬件安全和治理框架结合，提供了合规路径。

🔌 Topsort 推出 MCP 服务器连接零售媒体与 Agent 工作流

根据 Digital Journal 报道，Topsort 发布 MCP 服务器，连接零售媒体系统与 Agent 工作流，用于分析、优化和自动执行。

MCP (Model Context Protocol) 作为 Agent 系统互操作性标准，正在垂直行业落地。零售媒体的自动化是 AI Agent 的典型应用场景。

🧪 Witbe 在 NAB 2026 展示 AI 原生测试监控基础设施

根据 Content Technology 报道，Witbe 在 NAB Show 2026 展示 AI 原生测试和监控基础设施，用于实时 QA 自动化。

AI 系统的可靠性需要专门的测试和监控工具。AI 原生测试基础设施反映了对 AI 工作负载质量保障的特殊需求。

开源生态

🔧 forgelm v0.3.0 发布，集成 EU AI Act 合规功能

根据 PyPI 发布，forgelm v0.3.0 是配置驱动的微调工具包，包含安全评估、EU AI Act 合规功能和 QLoRA/DoRA 支持。

监管合规成为 AI 工具的标配功能。forgelm 将合规内嵌到微调流程，降低了法律风险。

🔍 agent-forensics v0.1.0 用于 Agent 决策取证

根据 PyPI 发布，agent-forensics v0.1.0 捕获 Agent 决策和工具调用以生成合规取证报告。

Agent 的自主性带来可解释性和合规挑战。取证工具是 Agent 进入受监管行业的前提。

🤖 agent-actions v0.1.2 YAML 声明式工作流编排

根据 PyPI 发布，agent-actions v0.1.2 提供声明式 YAML 框架，用于编排 LLM 工作流和批处理任务。

YAML 声明式配置降低了 Agent 工作流的编写门槛，促进非技术用户的采用。

📝 philiprehberger-prompt-builder v0.2.0 类型安全提示模板

根据 PyPI 发布，philiprehberger-prompt-builder v0.2.0 提供类型安全的提示模板构建器。

提示工程的工程化需要类型安全和可复用性。模板化是大规模生产的前提。

🌐 supervertaler v1.9.366 多 LLM 翻译工作台

根据 PyPI 发布，supervertaler v1.9.366 提供带术语表和翻译记忆的多 LLM 翻译工作台。

翻译工作台结合 LLM 和传统 TM 技术，体现了混合架构在垂直场景中的价值。

研究与基准

📚 WriteBack-RAG 提出可训练知识库组件

根据 arXiv 论文，WriteBack-RAG 提出可训练的知识库组件，报告在多种 RAG 方法和基准上的平均增益。

RAG 系统的知识库通常是静态检索。可训练组件通过端到端优化提升检索质量，但增加了训练复杂度。

🔍 LoCoMo 基准审计揭示长期记忆评估可靠性问题

根据 Reddit 讨论，LoCoMo 基准审计显示 64% 的答案键错误，引发对长期记忆评估可靠性的担忧。

基准数据质量直接影响研究可信度。审计事件呼吁更严格的数据验证和基准治理。

🔍 Infra Insights

本日核心趋势：实时多模态成为新战场、AI 原生平台从云厂商扩展到传统基础设施商、合规工具链从附加功能转向设计时内嵌。

Google Gemini 3.1 Flash Live 的发布标志着实时多模态推理从研究原型走向生产级 API，语音、视频和工具使用的低延迟融合将催生新一波交互式 AI 应用。SUSE 和 Nebius 的动作显示 AI 原生基础设施建设不再局限于云厂商，传统 Linux 厂商和新兴云服务商都在构建 AI 优先的平台，MIG 分区和 Serverless 是共同的技术选择。Check Point 的安全蓝图和 forgelm、agent-forensics 的合规功能则揭示了另一个趋势：随着 AI 进入受监管行业，安全和合规不再是上线后的补充，而是必须从设计阶段就内嵌的核心能力。WriteBack-RAG 和 PackForcing 体现了推理优化的两个方向：算法创新（可训练 KB、KV 缓存分区）和硬件适配（B200、H200），两者结合才能实现实时性能和成本效率的平衡。