Gemini 3 Flash登陆API:输入$0.50/百万tokens,输出$3.00/百万tokens
Google宣布推出新一代轻量前沿模型 Gemini 3 Flash,主打高速、低延迟与规模化可用,官方称其在多数评测上强于 Gemini 2.5 Pro,并显著强化编码与工具调用能力。该模型已在 Gemini API/AI Studio、Vertex AI 与 Gemini CLI 等渠道提供预览...
Google宣布推出新一代轻量前沿模型 Gemini 3 Flash,主打高速、低延迟与规模化可用,官方称其在多数评测上强于 Gemini 2.5 Pro,并显著强化编码与工具调用能力。该模型已在 Gemini API/AI Studio、Vertex AI 与 Gemini CLI 等渠道提供预览...
OpenAI 开发者文档“Image generation”页面对图片生成与编辑能力进行了集中说明:开发者可通过 Image API 直接生成、编辑或生成变体(变体仅 DALL·E 2 支持),也可在 Responses API 中把“image_generation”作为内置工具,用于多轮对话式的...
小米MiMo与小米大模型Core团队发布并开放MiMo-V2-Flash相关资源,定位为面向高速度推理与智能体工作流的基础语言模型,模型权重与推理部署资料同步提供给开发者与研究者使用。 该模型为Mixture-of-Experts(MoE)架构,总参数约309B、推理时激活约15B,并支持最高约25...
OpenAI于2025年12月16日发布新版ChatGPT Images,并称其由新的旗舰图像生成模型驱动,重点提升指令遵循、编辑精度与细节保留能力,同时将生成速度提升至最高4倍。官方说明指出,新模型在对上传图片进行修改时更能“只改用户要求的部分”,尽量保持光影、构图与人物外观等关键细节一致。 此次...
Meta推出SAM Audio(SAM-Audio),定位为“统一式”音频分割与编辑AI模型,目标是在复杂混音中按提示隔离并编辑特定声音。典型用例包括:在乐队演出视频中单独提取吉他或人声、过滤户外交通噪声、从播客里去除狗叫等干扰音。 SAM Audio的交互方式强调“人类直觉式提示”,支持三类提示并...
美团LongCat团队在LongCat-Video代码库更新中宣布发布LongCat-Video-Avatar,并同步上线项目页与Hugging Face权重。该模型定位为“音频驱动”的人物视频生成方案,基于LongCat-Video架构,支持Audio-Text-to-Video(AT2V)、Au...