编码答案而非问题,embedding涨9%
- 编码LLM的潜在回复而非用户输入做embedding,纯自监督训练在MTEB上比最好的无监督方法提升9.3%,LLM的安全对齐也被迁移到embedding空间。
- STEM视觉推理的真正瓶颈在感知而非推理。 CodePercept消融实验显示扩展感知组件收益持续更高,用可执行代码做感知脚手架效果显著。
- 差分分解交叉协方差矩阵做注意力引导:Prism-Δ在20组评测中19组追平或超过SOTA,流畅度损失减半,兼容FlashAttention无需微调。
- RL数据选择只挑"刚好够难"的题会压低模型上限,DPS用训练动态预测平衡效率与覆盖率,数学、规划、视觉几何等多类任务验证有效。ICLR接收。
也值得关注
- V₀.₅用预训练价值模型做RLVR的advantage baseline — 不需要同步更新,降低GRPO的方差问题。原文
- 视频推理模型在真实干扰下表现显著下降 — 天气遮挡、相机抖动暴露鲁棒性短板,ROVA提供针对性训练框架。原文
- 几何框架统一latent diffusion的三个优化目标 — 语义判别性、重建保真度和压缩率不再需要分开调。原文
- 可微物理框架从表面温度重建3D材料属性 — 替代传统逐像素1D近似,面向无损检测场景。原文
- 多智能体RL训练人形机器人做物理辅助 — 需要持续感知并适应人类伙伴的姿态变化。原文
- FP4量化的均值偏差在LLM各向异性分布下被放大 — blockwise方案需要特别注意这一系统性偏差。原文
- GLM-OCR:0.9B参数的端侧文档理解模型 — CogViT编码器+GLM解码器,面向实际OCR场景。原文
- LLM用户模拟器与真人行为存在系统性偏差 — 多轮Agent评测中的Sim2Real差距值得警惕。原文
- 语义降级条件替代空提示做CFG引导 — 减少空提示带来的几何纠缠问题。原文
- 多Agent协作自动生产喜剧短视频 — 用LLM评审对齐真实观众偏好。原文
- 实时全景场景图生成 — 面向边缘部署的embodied agent场景。原文
Don't miss what's next. Subscribe to AI论文简报: