AI论文简报

Archives
Log in
April 3, 2026

极简Agent打平MCP,代码推理边写边想

  • 终端+文件系统的极简Agent打平全副武装MCP方案,72个HF upvotes说明从业者对Agent过度工程的集体焦虑不是空穴来风——但评估任务是否覆盖真实企业场景的全部复杂度,仍需追问
  • 代码生成按需插入推理token,四个基准全部SOTA:Think-Anywhere让模型在高熵位置自动触发思考,比先想后写更贴合编程中复杂度逐步暴露的认知节奏
  • 三层Agent协作把小时级素材自动剪成音乐同步短视频。 不生成新内容而是理解和编辑已有素材,对创作者日常工作流的实际价值远超文生视频模型
  • 图像生成从"记住一切"转向"按需检索",Unify-Agent用agent流程解决长尾概念的知识覆盖天花板,143K条轨迹训练后接近最强闭源模型的世界知识水平

也值得关注

  • MCTS驱动文献探索与idea共演化 — 科研想法生成从静态检索走向动态搜索树。
  • 单张图片生成城镇规模3D场景 — 无需训练,靠扩展object-centric模型的latent空间拼接实现。
  • 扩散模型直接在RAW域生成合成训练数据 — 解决Camera RAW数据稀缺这一低层视觉的长期瓶颈。
  • 675B模型的隐私敏感度判断蒸馏到轻量模型 — 面向大规模文本数据的隐私合规评估部署。
  • 3D问答视觉token语义-几何联合剪枝 — 多视角token严重冗余,有限预算下大幅提效。
  • 全景视频驱动可控长程场景漫游 — 利用全景天然覆盖完整场景信息的优势做长程生成。
  • 长文档QA先提结构化中间表示再推理 — 比直接端到端生成更稳定(ICLR)。
  • 向量粒度稀疏注意力 — 比现有粗粒度模式更精细地削减长上下文视频Transformer计算。
  • TTS条件路径全部换成SSM — 推理时完全去掉attention和RNN层(ICLR)。
  • 多模态模型在做跨模态融合还是靠单模态先验偷懒? — 用信息分解给出定量回答(ICLR)。

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.