先写代码再画图，排版提升68%


            
        March 11, 2026
    
    
先写代码再画图，排版提升68%


所有intrinsic RLVR本质是锐化初始分布，模型先验质量决定训练天花板。Model Collapse Step可在跑RL前预判可行性，避免无效投入


代码比自然语言更适合做空间推理链：结构化布局基准提升68.83%，密集排版和多元素场景改善最为显著


模仿学习的结构性缺陷是缺少判断力训练。 ACT用RL让模型在候选动作间做对比评估，批判能力可迁移到分布外任务


高噪声扩散状态的信息量等价于低分辨率小图，全分辨率处理是冗余计算。理论扎实，但高分辨率场景的质量tradeoff待验证


也值得关注

统一编辑器用MoE路由动态分配条件信号权重 — 解决多任务静态融合导致的相互干扰。
自回归长视频的误差累积有了新解法 — 层级去噪在时序连续性和画面质量之间找到更好的平衡点。
400道专家级agent任务覆盖法律、金融、医疗 — 直接对标百万美元级真实决策场景。
ViT微调时显式引导关注语义概念而非背景线索 — 有效提升分布偏移下的鲁棒性。
测试时自适应学习新类别，无需重新训练 — 面向在线流式场景的实用能力。
评测VLM识别细微视觉差异的推理能力 — 面向工业质检和医学影像等精细判断场景。
从权重方向角度理解扩散蒸馏 — 实现更稳定的一步图像生成。
用原型引导擦除扩散模型中的宽泛概念 — 可移除整个艺术风格而非仅限单一角色。
LLM通过条件token切换行为模式 — 类似变色龙适应环境的内在行为可塑性。
稀疏注意力跳过的块用线性补偿恢复 — 视频生成提速且不损失质量。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)