Surya OCR 2:650M 参数,91 种语言,3B 以下最强
发布动态
1Surya OCR 2:650M 参数,91 种语言,3B 以下最强。
OCR 这个"老赛道"被一个小模型掀了桌 — Surya OCR 2 在 OlmOCR 基准上跑出 83.3%,拿下 3B 参数以下模型的最高分,而它只有 650M 参数。支持 91 种语言,中日韩全覆盖。关键是:这个体量意味着你不需要 A100,一张消费级显卡就能跑。文档处理、票据识别、多语言 OCR 场景,现在多了一个又小又强的选项。(471 likes | 52 RTs) 详情 →
2OpenAI 部署 Rosalind 生物防御系统,AI 进入国家安全基础设施。
OpenAI 宣布将 GPT-Rosalind 的访问权限扩展到盟国政府合作伙伴,用于生物防御和大流行病预防。这不是又一个聊天机器人落地案例 — 这是 AI 从"提升生产力"正式跨入"国家安全基础设施"的信号。当 AI 公司开始直接对接政府生物安全体系,行业的责任边界和监管压力都会跟着变。(1,699 likes | 166 RTs) 详情 →
3Opus 4.8:不只是跑分更强,而是知道什么时候该停。
Opus 4.8 的跑分当然好看,但 Claude Code 团队的 Felix Rieseberg 点出了更关键的东西 — 这个模型在"该做多少"和"怎么响应用户引导"上的判断力,比跑分数字更影响日常使用体验。写代码不止要写得对,还要知道什么时候停下来问一句"你确定要这么改吗?"。现在就可以在 Claude Code 里切换试试。(257 likes) 详情 →
Koji:让孩子真正动脑的 AI 家教。 AI 教育最大的批评就是"让孩子变笨" — Koji 反其道而行,不给答案,用 AI 引导推理过程,让学生自己想明白。10,000+ 点赞说明这个痛点扎准了。如果你家里有学生,值得试试。(10,938 likes | 1,169 RTs) 详情 →
开发者工具
4Claude Code 动态工作流引擎:先写剧本,再派 Agent。
这是本周最值得深挖的技术更新。Claude Code 的动态工作流不是"让模型自由发挥" — 而是 Claude 先生成一个确定性的编排脚本,然后按脚本并行调度多个 Agent 执行。工程负责人 Boris Cherny 的技术细节帖解释了底层机制:脚本定义了 phase()、pipeline()、parallel() 等原语,Agent 在明确的控制流里工作,而不是即兴发挥。这代表了行业从"让模型自己想办法"到"结构化编排 + 显式控制面"的转向。在 Claude Code 中输入"workflow"关键词即可触发。(9,701 likes | 871 RTs) 详情 →
Claude Code Auto Mode 登陆 Bedrock、Vertex 和 Foundry。 之前只有直连 API 的用户能用 Auto Mode(Claude Code 最自主的执行模式),现在 Bedrock、Vertex 和 Foundry 上的企业用户也可以了。设置 CLAUDE_CODE_ENABLE_AUTO_MODE=1 即可开启。这对被锁在云厂商渠道里的企业团队是个大解锁。详情 →
Codex 后台 Agent 有了持久化视觉标识。 一个小细节,但管理多个并发 Agent 时很重要 — Codex 的后台 Agent 现在有了稳定的像素风头像,跨标签页和对话记录都能识别。当你同时跑 5 个 Agent 时,一眼就知道哪个是哪个。(800 likes) 详情 →
技术实战
Claude Code 支持手动调节思考深度了。 通过 /effort 命令,你现在可以逐任务控制 Claude Code 的思考力度 — 简单改名就用低档,复杂重构就拉满。这是日常使用中平衡速度和深度的实用杠杆,比什么都用默认档位效率高得多。(145 likes) 详情 →
Hermes Agent 实现 MCP 工具 Schema 按需加载。 如果你接了 15 个以上的 MCP Server,光是工具 Schema 就能吃掉一大块上下文窗口。Hermes Agent 的 Tool Search 功能解决了这个问题 — 不再一次性加载所有 Schema,而是按需发现和加载。每个 MCP 重度用户都该学这个模式。(186 likes | 24 RTs) 详情 →
研究前沿
英国 AI 安全研究所开源评测数据集。 UK AI Safety Institute 把他们用来测试 AI 安全性的评测数据集和方法论全部公开了。这意味着任何人都可以复现政府级别的安全测试,也可以在此基础上构建更好的评测。对透明 AI 安全而言,这是一个标志性动作。(108 likes | 31 RTs) 详情 →
Simon Willison 拆解 Anthropic 如何在多产品中隔离 Claude。 当同一个模型要服务 API、消费级产品、企业客户等多个场景时,安全隔离怎么做?Simon Willison 深度分析了 Anthropic 的方案 — 包括权限边界、工具访问控制和上下文隔离策略。自己在部署 LLM 的,这篇是实操参考。详情 →
行业洞察
OpenRouter 融资 1.13 亿美元,押注多模型路由层。 让开发者在 Claude、GPT、Gemini 等几十个模型之间自由切换的路由层 OpenRouter,刚拿下 1.13 亿美元 B 轮。这笔融资传递的信号很清楚:模型层正在加速商品化,真正的护城河不在于做模型,而在于帮你选对模型的路由智能。对每个构建 AI 应用的人来说,这意味着你不应该再把架构绑死在一个供应商上。(337 likes | 162 RTs) 详情 →
Mollick:组织在 AI 能力建设上投入严重不足。 Ethan Mollick 提出一个尖锐的观点 — 组织花 AI 的钱应该做两件事:用 AI 造东西,和建设"用 AI 造东西"的能力。问题是绝大多数组织只做了前者,忽略了后者 — 流程、工具链、团队结构的重构才是真正决定 AI ROI 的地方。审视一下你的团队,AI 预算有多少花在了"建设能力"上?(196 likes) 详情 →
AI 生成代码正在重演前端的"失落十年"? 一篇犀利的文章指出,AI 生成的前端代码正在以更快的速度复制 jQuery/Angular/React 时代的复杂度债务。不管你同不同意结论,文中描述的模式 — 快速生成、缺乏理解、技术债加速累积 — 在每个 AI 重度使用的代码库里都能看到影子。值得每个用 AI 写代码的人读一读。(274 likes | 236 RTs) 详情 →
值得一试
webstandards.dev:有引用来源的网站标准规范。 Yoast 创始人 Joost de Valk 推出的平台,覆盖 SEO、无障碍、安全和 AI Agent 就绪度,每一条声明都附来源引用。这不是又一个"最佳实践清单" — 这是你团队那个临时拼凑的内部 checklist 该升级成的东西。(359 likes | 43 RTs) 详情 →
OpenAI Voice Hack Night:6 小时造出 4 个实时语音 Agent。 四支团队在 6 小时内各造出一个生产级实时语音 Agent — 这个速度本身就是最好的信号:语音 AI 的开发者循环已经快到可以在 Hackathon 里出成品了。正在投票,周一出结果。(265 likes | 22 RTs) 详情 →
Gradio "Build Small" 黑客松:最大 32B 参数,必须跑在笔记本上。 一个有意思的约束 — OpenAI、NVIDIA、OpenBMB 赞助的黑客松,要求模型最大 32B 参数且必须能在笔记本上运行。最好的创新往往来自限制条件。如果你在做小模型,去报名。(341 likes | 51 RTs) 详情 →
模型小课堂
确定性 vs. 自主式 Agent 编排(Deterministic vs. Autonomous Agent Orchestration):想象你要装修房子。一种方式是请一个万能工人,告诉他"把房子弄好看",然后他自己决定先刷墙还是先铺地板 — 这是自主式编排,Agent 自己规划每一步。另一种方式是先画好施工图纸,标清每个工种的顺序和并行关系,然后按图施工 — 这就是确定性编排。Claude Code 的动态工作流选择了后者:先让 Claude 生成一个编排脚本(施工图纸),定义好哪些任务并行、哪些串行,然后严格执行。今天的工作流引擎、Tool Search 按需加载、effort 级别控制,都反映了行业正在从"让模型随便来"转向"给模型画好线再让它跑"。
快讯
- PaddleOCR-VL-1.6:PaddlePaddle 推出视觉-语言 OCR 模型,专攻复杂文档版面。(100 likes | 1.2K downloads) 链接
- Liquid AI LFM2.5-8B:非 Transformer 架构模型现在可以用 llama.cpp 跑了。(105 likes | 5.3K downloads) 链接
- Claude Code v2.1.156:修复 Opus 4.8 思维块导致的 API 报错。 链接
- Anthropic TS SDK v0.100.1:修复流式传输中 compaction 块处理问题。 链接
- Anthropic Python SDK:新增 PyPI Trusted Publishing,防止供应链攻击。 链接
- Tiny-vLLM:C++/CUDA 从零实现的 LLM 推理引擎,代码量小、可读性强。 链接
今日精选
OpenRouter 1.13 亿美元融资:模型商品化比所有人预想的都快。 OpenRouter 这轮融资的意义远超一家公司的估值故事。它确认了一个行业趋势:模型层正在快速商品化 — Claude、GPT、Gemini、开源模型的性能差距在缩小,切换成本在降低,真正的护城河不在于"谁家模型好",而在于"谁能帮你在对的时间选对的模型"。这就是路由智能的价值。对开发者和技术决策者而言,这改变了你思考供应商锁定的方式 — 如果模型是可替换的,你的架构就不应该假设它不可替换。把模型调用抽象成一个路由层,保持切换灵活性,可能是 2026 年最值得做的架构决策之一。(337 likes | 162 RTs) 详情 →
下期见 ✌️
|