Ai开源 - 第7页 - AI工具导航

HPC-Ops 开源解读：腾讯混元生产级 LLM 推理算子库如何榨干 H20 等推理卡性能

一、摘要 HPC-Ops 是腾讯混元（Hunyuan）AI Infra 团队开源的生产级 LLM 推理算子库，目标是让主流推理卡（尤其是 NVIDIA Hopper/SM90，如 H20）更接近硬件峰值利用率。项目主打从零用 CUDA + CuTe/CUTLASS 打磨 SOTA 内核，并提供相对干...

Admin • 2026/1/27

124

DeepSeek-OCR 2 发布：Visual Causal Flow 让文档与图表识别更“像人类阅读”

一、摘要 DeepSeek-OCR 2 是 DeepSeek 开源的 OCR/文档理解模型版本升级，项目以 “DeepSeek-OCR 2: Visual Causal Flow” 为主题，强调更贴近人类的视觉编码方式，面向复杂版式（文档、图表、混排页面等）提供更强的结构化抽取与理解能力。官方仓库与...

Admin • 2026/1/27

198

Kimi K2.5 开源多模态智能体全解：视觉编程与 Agent Swarm 并行协作

一、摘要 Kimi K2.5 是 Moonshot AI 发布的开源“视觉 + 智能体（Agentic）”多模态模型，支持图像/视频与文本统一输入，并提供对话模式与 Agent 模式。其重点方向包括：视觉驱动的编码与视觉调试、长链路工具调用、以及可自编排的并行多智能体机制（Agent Swarm，测...

Admin • 2026/1/27

201

Qwen3-TTS 开源发布：12Hz 高压缩 tokenizer + 3 秒音色克隆怎么玩

一、摘要 Qwen3-TTS 是 Qwen 团队开源的文本转语音（TTS）模型系列，包含 VoiceDesign（文字描述生成新音色）、CustomVoice（指令控制既定高质量音色）与 Base（快速音色克隆与微调基座）。项目同时开源代码与权重，并提供 12Hz 语音 tokenizer 以实现更...

Admin • 2026/1/23

126

Chroma 1.0 发布：全球首个开源端到端实时语音到语音模型

一、摘要 Chroma 1.0 是由 FlashLabs 训练并完全开源的端到端实时语音到语音模型，支持个性化语音克隆。模型无需传统 ASR→LLM→TTS 管线，可在约 150ms 内完成端到端响应，定位为研究级、可落地的实时对话方案，并作为 OpenAI Realtime 模型的开源替代。二、...

Admin • 2026/1/22

开源图像生成新选择：GLM-Image 的架构、能力与落地场景

一、摘要 GLM-Image 是 Z.ai 开源的图像生成模型，采用“离散自回归生成 + 扩散解码”的混合范式：自回归模块负责全局语义与布局规划，扩散解码器补足高保真细节。官方资料指出，它整体画质可对齐主流扩散路线，同时在文字渲染与知识密集型图像（海报、PPT、科普示意图）表现更突出。二、核心特性...

Admin • 2026/1/14

103

HPC-Ops 开源解读：腾讯混元生产级 LLM 推理算子库如何榨干 H20 等推理卡性能

DeepSeek-OCR 2 发布：Visual Causal Flow 让文档与图表识别更“像人类阅读”

Kimi K2.5 开源多模态智能体全解：视觉编程与 Agent Swarm 并行协作

Qwen3-TTS 开源发布：12Hz 高压缩 tokenizer + 3 秒音色克隆怎么玩

Chroma 1.0 发布：全球首个开源端到端实时语音到语音模型

开源图像生成新选择：GLM-Image 的架构、能力与落地场景

推荐工具

提交AI工具

请确认提交信息