305M检索器指令遵循涨45%

        April 22, 2026

305M检索器指令遵循涨45%

检索器忽视指令约束是数据问题、不是模型容量问题：IF-IR用互补指令对+标签反转合成对比样本，305M encoder在FollowIR基准上提升45%，打赢参数量相当甚至更大的通用embedding。

RLHF的单点失败藏在reward model里，ARES把红队从"发现漏洞"推进到"端到端修复policy-reward系统"，对真实在跑RLHF pipeline的团队更贴近工程需求。

MLLM在雾天、低光、模糊下翻车，解法可能不在算法层。DUALVISION引入红外通道做模态互补，配套开源25K IR-RGB对齐图像和204K QA标注，降低在现有MLLM上试水的成本。

多视角和2D-3D之间一直缺一个统一的位置编码：URoPE沿相机射线采样3D点并投影回查询平面，parameter-free、兼容现有RoPE kernel，在novel view synthesis、3D检测、跟踪、深度估计上都有稳定提升。

也值得关注

把科学可行性判断拆成"合乎已知知识"和"实验上可被支持/反驳"两层 — 框成诊断式推理任务后看LLM能否区分这两种层面的feasibility。Experiments or Outcomes? Probing Scientific Feasibility in Large Language Models
用幽默做counterfactual unfairness探针 — 模型觉得什么好笑，暴露的是训练数据里关于身份和群体的社会假设，评测角度很巧。Investigating Counterfactual Unfairness in LLMs towards Identities through Humor
多语LLM在高层任务上漂亮，但语法性别和形态一致性普遍翻车 — MORPHOGEN把这个词法层面的盲区做成了跨语基准。MORPHOGEN: A Multilingual Benchmark for Evaluating Gender-Aware Morphological Generation

阅读完整版 →

                                Don't miss what's next. Subscribe to AI论文简报:

            Email address (required)