HPC-Ops 开源解读:腾讯混元生产级 LLM 推理算子库如何榨干 H20 等推理卡性能
一、摘要 HPC-Ops 是腾讯混元(Hunyuan)AI Infra 团队开源的生产级 LLM 推理算子库,目标是让主流推理卡(尤其是 NVIDIA Hopper/SM90,如 H20)更接近硬件峰值利用率。项目主打从零用 CUDA + CuTe/CUTLASS 打磨 SOTA 内核,并提供相对干...
一、摘要 HPC-Ops 是腾讯混元(Hunyuan)AI Infra 团队开源的生产级 LLM 推理算子库,目标是让主流推理卡(尤其是 NVIDIA Hopper/SM90,如 H20)更接近硬件峰值利用率。项目主打从零用 CUDA + CuTe/CUTLASS 打磨 SOTA 内核,并提供相对干...
一、摘要 DeepSeek-OCR 2 是 DeepSeek 开源的 OCR/文档理解模型版本升级,项目以 “DeepSeek-OCR 2: Visual Causal Flow” 为主题,强调更贴近人类的视觉编码方式,面向复杂版式(文档、图表、混排页面等)提供更强的结构化抽取与理解能力。官方仓库与...
一、摘要 Kimi K2.5 是 Moonshot AI 发布的开源“视觉 + 智能体(Agentic)”多模态模型,支持图像/视频与文本统一输入,并提供对话模式与 Agent 模式。其重点方向包括:视觉驱动的编码与视觉调试、长链路工具调用、以及可自编排的并行多智能体机制(Agent Swarm,测...
一、摘要 Qwen3-TTS 是 Qwen 团队开源的文本转语音(TTS)模型系列,包含 VoiceDesign(文字描述生成新音色)、CustomVoice(指令控制既定高质量音色)与 Base(快速音色克隆与微调基座)。项目同时开源代码与权重,并提供 12Hz 语音 tokenizer 以实现更...
一、摘要 Chroma 1.0 是由 FlashLabs 训练并完全开源的端到端实时语音到语音模型,支持个性化语音克隆。模型无需传统 ASR→LLM→TTS 管线,可在约 150ms 内完成端到端响应,定位为研究级、可落地的实时对话方案,并作为 OpenAI Realtime 模型的开源替代。 二、...
一、摘要 GLM-Image 是 Z.ai 开源的图像生成模型,采用“离散自回归生成 + 扩散解码”的混合范式:自回归模块负责全局语义与布局规划,扩散解码器补足高保真细节。官方资料指出,它整体画质可对齐主流扩散路线,同时在文字渲染与知识密集型图像(海报、PPT、科普示意图)表现更突出。 二、核心特性...