Z.ai推出GLM-OCR在线体验:支持PDF与图片版面解析
Z.ai发布多模态OCR模型GLM-OCR,并在Hugging Face开放权重,同时提供在线体验与API调用方式。官方称该模型仅约0.9B参数,但在复杂文档理解任务中取得领先表现,覆盖公式识别、表格识别与关键信息抽取等场景。 在API使用上,GLM-OCR支持输入PDF与图片(JPG/PNG),单...
Z.ai发布多模态OCR模型GLM-OCR,并在Hugging Face开放权重,同时提供在线体验与API调用方式。官方称该模型仅约0.9B参数,但在复杂文档理解任务中取得领先表现,覆盖公式识别、表格识别与关键信息抽取等场景。 在API使用上,GLM-OCR支持输入PDF与图片(JPG/PNG),单...
OpenAI发布Codex应用并在macOS提供下载,将其定位为“智能体构建指挥中心”,支持同时管理多个智能体并行执行长期任务,覆盖功能开发、重构、迁移与代码审查等工程流程。 该应用提供内置工作树与云端环境,便于在同一代码库上隔离改动、减少冲突;并通过“技能”封装工具与团队规范,扩展到文档、信息整理...
谷歌DeepMind与Google Labs发布实验性原型“Project Genie”,主打用文字与图片提示创建、编辑并探索虚拟世界。其流程包括:用户设计世界与角色后,先由Nano Banana Pro生成可调整的图像预览,再由Genie 3世界模型在移动探索过程中实时生成环境,并提供画廊用于发现...
OpenAI表示将于“未来数周”在美国对已登录成年人启动ChatGPT广告测试,并计划把广告展示扩展到网页端与移动端应用。广告将以“赞助”形式与回答分离展示,通常出现在回答底部,且官方称广告不会影响模型给出的回答。 关于个性化方式,官方说明广告会围绕“当前对话相关性”进行匹配,并提供“关闭个性化、清...
Anthropic发布《How AI assistance impacts the formation of coding skills》研究,比较开发者在“AI辅助编程”和“手写代码”两种条件下完成同类任务后的技能掌握情况。研究结论指出,使用AI辅助会带来统计显著的“掌握度下降”:在覆盖刚刚用到概...
Cursor 团队在 agent-trace.dev 发布“Agent Trace”规范(版本 0.1.0,状态为 RFC),将其定位为一套开放规格,用于在版本控制的代码库中记录“哪些改动来自 AI、哪些来自人类”,并把模型信息与相关对话关联到具体代码贡献。 该规范强调“厂商中立”和“可互操作”,支...