Seed1.8把Agent做进基座，语言训练让视觉退化


            
        March 24, 2026
    
    
Seed1.8把Agent做进基座，语言训练让视觉退化


Seed1.8把搜索、代码执行、GUI交互统一到基座层，字节跳动发布Agent原生基座模型，部署侧针对延迟和成本做了优化，但缺少与通用模型+框架方案的直接对比。


多模态模型的语言训练在系统性侵蚀视觉表征——跨架构、跨规模的诊断发现，单一文本生成目标迫使模型牺牲视觉保真度。PRe方法通过中间层预测约束缓解退化。


DiT微调显存大幅下降，效果接近全量微调。动态patch采样按时间步调整分辨率，cross-attention掩码筛选关键block只微调这些，两个策略叠加打开消费级硬件上的可行性。


也值得关注

跨时间步自校准缓解文生图的文本-图像对齐问题 — 不改架构只改采样过程，思路轻量。
Mamba做多任务点云理解，结构感知设计比Transformer更适合跨域泛化 — domain generalization场景下的新选择。
边缘检测用masked prediction替代复杂loss设计 — 轻量方案，输出更接近人类标注的单像素精度。
脑电信号到图像的跨被试检索有了test-time校准方案 — 解决被试差异和embedding空间的hubness问题。
平面几何先验做轻量6-DoF相机重定位 — 在结构化环境中比传统点特征匹配更高效。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)