Ai开源 - 第6页 - AI工具导航

LingBot-World 开源解读：从视频生成走向“可交互世界模型”的关键一步

一、摘要 LingBot-World 是 Robbyant 开源的“世界模型/世界模拟器”，思路源自视频生成：给定输入图像与文本提示，可生成具有动态一致性的长视频序列，并强调可控与可交互。项目定位为具身智能基础栈的一部分，面向机器人学习、游戏内容与交互式生成等场景，提供代码与模型权重，协议为 Apa...

Admin • 2026/1/29

121

Qwen3-ASR 与 Qwen3-ForcedAligner 开源解读：面向真实噪声语音的生产级方案

一、摘要 Qwen3-ASR 与 Qwen3-ForcedAligner 是面向“嘈杂、复杂、不可控”真实录音场景的开源语音模型与对齐组件。它们主打多语种自动识别、对噪声与混响的鲁棒性、最长约 20 分钟的长音频处理，以及在部分语言上提供词/短语级高精度时间戳对齐能力，并配套开源的推理与微调工程栈，...

Admin • 2026/1/29

461

LongCat-Flash-Lite 解读：用 N-gram Embeddings 走出稀疏 MoE 的新效率路径

一、摘要 LongCat-Flash-Lite 是一个以高稀疏 MoE 场景为目标的开源大模型：总参数 68.5B，但每 token 仅激活约 2.9B~4.5B。它的关键思路不是继续堆 MoE 专家数，而是在特定稀疏区间通过扩容 N-gram Embedding（约 30B+ 参数用于 embed...

Admin • 2026/1/29

117

HunyuanImage 3.0-Instruct 开源解读：面向图像编辑的最强 Image-to-Image 模型之一

一、摘要 HunyuanImage 3.0-Instruct 是腾讯混元团队开源的图像生成与图像编辑（Image-to-Image）模型，强调“理解+生成”的统一多模态能力，并通过 Instruct（带推理/指令跟随）形态更适配创意编辑与交互式改图。在 Image Edit Arena（lmaren...

Admin • 2026/1/28

105

Z-Image 开源发布：6B 单流扩散 Transformer 的基础图像生成模型解析

一、摘要 Z-Image（造相）是 Tongyi-MAI 开源的 6B 参数图像生成基础模型家族，采用单流扩散 Transformer（Single-Stream Diffusion Transformer / S3-DiT）架构。与强调速度的 Z-Image-Turbo 不同，Z-Image定位为...

Admin • 2026/1/28

Kimi Code 开源发布：Apache 2.0 协议下的全功能智能编程代理

一、摘要 Kimi Code 是 Moonshot AI 推出的开源编程智能体（Coding Agent），采用 Apache 2.0 许可证，强调透明、安全与可扩展性。项目以 Python 为核心实现，原生支持多模态输入，并可无缝集成多种主流开发环境，开箱即用，面向真实软件工程场景设计。二、核心...

Admin • 2026/1/28

177

LingBot-World 开源解读：从视频生成走向“可交互世界模型”的关键一步

Qwen3-ASR 与 Qwen3-ForcedAligner 开源解读：面向真实噪声语音的生产级方案

LongCat-Flash-Lite 解读：用 N-gram Embeddings 走出稀疏 MoE 的新效率路径

HunyuanImage 3.0-Instruct 开源解读：面向图像编辑的最强 Image-to-Image 模型之一

Z-Image 开源发布：6B 单流扩散 Transformer 的基础图像生成模型解析

Kimi Code 开源发布：Apache 2.0 协议下的全功能智能编程代理

推荐工具

提交AI工具

请确认提交信息