3B拒答追平R1，B矩阵是LoRA瓶颈


            
        April 21, 2026
    
    
3B拒答追平R1，B矩阵是LoRA瓶颈


把拒答写进奖励函数：Abstain-R1让可答与不可答共用一套可验证信号，3B模型在三个拒答benchmark上对齐DeepSeek-R1，而可答问题不掉点。


LoRA合并的干扰其实来自B矩阵：Pico做data-free校准、作为插件叠加在TaskArithmetic/TIES/TSV-M上，八个benchmark平均提升3.4-8.3点。


"尊重多元价值观"成了越狱通道：把有害请求包装进"道德灰区讨论"，主流LLM和guardrail的越狱成功率显著上升;对齐目标之间的张力第一次被当成攻击向量。


视觉token压缩换思路：EvoComp先用进化搜索为每张图离线搜出"该保留哪些token"的软标签，再训轻量压缩器去模仿,3倍压缩保留99.3%准确率。


也值得关注

HeLa-Mem用Hebbian关联替代向量检索 — agent长期记忆不再是一堆独立向量，而是有连接的图结构。
OASIS给流式视频推理上层级事件记忆 — 证据稀疏、冗余无界，靠按需抽取而非扩大context。
PRISM把幻觉拆成三类分别探测 — "推理错/指令偏离/来源记忆错"比output-level打分更能指导修复。
SIF用"语义内但内部响应独特"的样本做LVLM指纹 — 不再依赖OOD查询，不破坏正常使用体验。
CogGen把深度研究报告做成递归非线性pipeline — 跳出"检索-大纲-填充"的直线流水。
连续血糖监测的本地化问答Agent — 患者可见数据不出端，瞄准CGM日常自管理场景。
SAVE给单细胞生成做基因block注意力 — 不再把基因当独立token，支持多条件生成。
扩散模型做逆问题的噪声自适应采样 — 省掉任务级调参，不同IP共用一套采样策略。
主观NLP标注分歧的schema级诊断 — 到底是标准模糊还是合理多样，给了一套可操作的区分方法。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)