编码答案而非问题，embedding涨9%


            
        March 13, 2026
    
    
编码答案而非问题，embedding涨9%


编码LLM的潜在回复而非用户输入做embedding，纯自监督训练在MTEB上比最好的无监督方法提升9.3%，LLM的安全对齐也被迁移到embedding空间。


STEM视觉推理的真正瓶颈在感知而非推理。 CodePercept消融实验显示扩展感知组件收益持续更高，用可执行代码做感知脚手架效果显著。


差分分解交叉协方差矩阵做注意力引导：Prism-Δ在20组评测中19组追平或超过SOTA，流畅度损失减半，兼容FlashAttention无需微调。


RL数据选择只挑"刚好够难"的题会压低模型上限，DPS用训练动态预测平衡效率与覆盖率，数学、规划、视觉几何等多类任务验证有效。ICLR接收。


也值得关注

V₀.₅用预训练价值模型做RLVR的advantage baseline — 不需要同步更新，降低GRPO的方差问题。原文
视频推理模型在真实干扰下表现显著下降 — 天气遮挡、相机抖动暴露鲁棒性短板，ROVA提供针对性训练框架。原文
几何框架统一latent diffusion的三个优化目标 — 语义判别性、重建保真度和压缩率不再需要分开调。原文
可微物理框架从表面温度重建3D材料属性 — 替代传统逐像素1D近似，面向无损检测场景。原文
多智能体RL训练人形机器人做物理辅助 — 需要持续感知并适应人类伙伴的姿态变化。原文
FP4量化的均值偏差在LLM各向异性分布下被放大 — blockwise方案需要特别注意这一系统性偏差。原文
GLM-OCR：0.9B参数的端侧文档理解模型 — CogViT编码器+GLM解码器，面向实际OCR场景。原文
LLM用户模拟器与真人行为存在系统性偏差 — 多轮Agent评测中的Sim2Real差距值得警惕。原文
语义降级条件替代空提示做CFG引导 — 减少空提示带来的几何纠缠问题。原文
多Agent协作自动生产喜剧短视频 — 用LLM评审对齐真实观众偏好。原文
实时全景场景图生成 — 面向边缘部署的embodied agent场景。原文

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)