AI论文简报

Archives
Log in
March 24, 2026

Seed1.8把Agent做进基座,语言训练让视觉退化

  • Seed1.8把搜索、代码执行、GUI交互统一到基座层,字节跳动发布Agent原生基座模型,部署侧针对延迟和成本做了优化,但缺少与通用模型+框架方案的直接对比。
  • 多模态模型的语言训练在系统性侵蚀视觉表征——跨架构、跨规模的诊断发现,单一文本生成目标迫使模型牺牲视觉保真度。PRe方法通过中间层预测约束缓解退化。
  • DiT微调显存大幅下降,效果接近全量微调。动态patch采样按时间步调整分辨率,cross-attention掩码筛选关键block只微调这些,两个策略叠加打开消费级硬件上的可行性。

也值得关注

  • 跨时间步自校准缓解文生图的文本-图像对齐问题 — 不改架构只改采样过程,思路轻量。
  • Mamba做多任务点云理解,结构感知设计比Transformer更适合跨域泛化 — domain generalization场景下的新选择。
  • 边缘检测用masked prediction替代复杂loss设计 — 轻量方案,输出更接近人类标注的单像素精度。
  • 脑电信号到图像的跨被试检索有了test-time校准方案 — 解决被试差异和embedding空间的hubness问题。
  • 平面几何先验做轻量6-DoF相机重定位 — 在结构化环境中比传统点特征匹配更高效。

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.