极简Agent打平MCP,代码推理边写边想
- 终端+文件系统的极简Agent打平全副武装MCP方案,72个HF upvotes说明从业者对Agent过度工程的集体焦虑不是空穴来风——但评估任务是否覆盖真实企业场景的全部复杂度,仍需追问
- 代码生成按需插入推理token,四个基准全部SOTA:Think-Anywhere让模型在高熵位置自动触发思考,比先想后写更贴合编程中复杂度逐步暴露的认知节奏
- 三层Agent协作把小时级素材自动剪成音乐同步短视频。 不生成新内容而是理解和编辑已有素材,对创作者日常工作流的实际价值远超文生视频模型
- 图像生成从"记住一切"转向"按需检索",Unify-Agent用agent流程解决长尾概念的知识覆盖天花板,143K条轨迹训练后接近最强闭源模型的世界知识水平
也值得关注
- MCTS驱动文献探索与idea共演化 — 科研想法生成从静态检索走向动态搜索树。
- 单张图片生成城镇规模3D场景 — 无需训练,靠扩展object-centric模型的latent空间拼接实现。
- 扩散模型直接在RAW域生成合成训练数据 — 解决Camera RAW数据稀缺这一低层视觉的长期瓶颈。
- 675B模型的隐私敏感度判断蒸馏到轻量模型 — 面向大规模文本数据的隐私合规评估部署。
- 3D问答视觉token语义-几何联合剪枝 — 多视角token严重冗余,有限预算下大幅提效。
- 全景视频驱动可控长程场景漫游 — 利用全景天然覆盖完整场景信息的优势做长程生成。
- 长文档QA先提结构化中间表示再推理 — 比直接端到端生成更稳定(ICLR)。
- 向量粒度稀疏注意力 — 比现有粗粒度模式更精细地削减长上下文视频Transformer计算。
- TTS条件路径全部换成SSM — 推理时完全去掉attention和RNN层(ICLR)。
- 多模态模型在做跨模态融合还是靠单模态先验偷懒? — 用信息分解给出定量回答(ICLR)。
Don't miss what's next. Subscribe to AI论文简报: