305M检索器指令遵循涨45%
- 检索器忽视指令约束是数据问题、不是模型容量问题:IF-IR用互补指令对+标签反转合成对比样本,305M encoder在FollowIR基准上提升45%,打赢参数量相当甚至更大的通用embedding。
- RLHF的单点失败藏在reward model里,ARES把红队从"发现漏洞"推进到"端到端修复policy-reward系统",对真实在跑RLHF pipeline的团队更贴近工程需求。
- MLLM在雾天、低光、模糊下翻车,解法可能不在算法层。DUALVISION引入红外通道做模态互补,配套开源25K IR-RGB对齐图像和204K QA标注,降低在现有MLLM上试水的成本。
- 多视角和2D-3D之间一直缺一个统一的位置编码:URoPE沿相机射线采样3D点并投影回查询平面,parameter-free、兼容现有RoPE kernel,在novel view synthesis、3D检测、跟踪、深度估计上都有稳定提升。
也值得关注
- 把科学可行性判断拆成"合乎已知知识"和"实验上可被支持/反驳"两层 — 框成诊断式推理任务后看LLM能否区分这两种层面的feasibility。Experiments or Outcomes? Probing Scientific Feasibility in Large Language Models
- 用幽默做counterfactual unfairness探针 — 模型觉得什么好笑,暴露的是训练数据里关于身份和群体的社会假设,评测角度很巧。Investigating Counterfactual Unfairness in LLMs towards Identities through Humor
- 多语LLM在高层任务上漂亮,但语法性别和形态一致性普遍翻车 — MORPHOGEN把这个词法层面的盲区做成了跨语基准。MORPHOGEN: A Multilingual Benchmark for Evaluating Gender-Aware Morphological Generation
Don't miss what's next. Subscribe to AI论文简报: