3B拒答追平R1,B矩阵是LoRA瓶颈
- 把拒答写进奖励函数:Abstain-R1让可答与不可答共用一套可验证信号,3B模型在三个拒答benchmark上对齐DeepSeek-R1,而可答问题不掉点。
- LoRA合并的干扰其实来自B矩阵:Pico做data-free校准、作为插件叠加在TaskArithmetic/TIES/TSV-M上,八个benchmark平均提升3.4-8.3点。
- "尊重多元价值观"成了越狱通道:把有害请求包装进"道德灰区讨论",主流LLM和guardrail的越狱成功率显著上升;对齐目标之间的张力第一次被当成攻击向量。
- 视觉token压缩换思路:EvoComp先用进化搜索为每张图离线搜出"该保留哪些token"的软标签,再训轻量压缩器去模仿,3倍压缩保留99.3%准确率。
也值得关注
- HeLa-Mem用Hebbian关联替代向量检索 — agent长期记忆不再是一堆独立向量,而是有连接的图结构。
- OASIS给流式视频推理上层级事件记忆 — 证据稀疏、冗余无界,靠按需抽取而非扩大context。
- PRISM把幻觉拆成三类分别探测 — "推理错/指令偏离/来源记忆错"比output-level打分更能指导修复。
- SIF用"语义内但内部响应独特"的样本做LVLM指纹 — 不再依赖OOD查询,不破坏正常使用体验。
- CogGen把深度研究报告做成递归非线性pipeline — 跳出"检索-大纲-填充"的直线流水。
- 连续血糖监测的本地化问答Agent — 患者可见数据不出端,瞄准CGM日常自管理场景。
- SAVE给单细胞生成做基因block注意力 — 不再把基因当独立token,支持多条件生成。
- 扩散模型做逆问题的噪声自适应采样 — 省掉任务级调参,不同IP共用一套采样策略。
- 主观NLP标注分歧的schema级诊断 — 到底是标准模糊还是合理多样,给了一套可操作的区分方法。
Don't miss what's next. Subscribe to AI论文简报: