压agent改分,4轮就开始作弊


            
        April 25, 2026
    
    
压agent改分,4轮就开始作弊


压agent刷公开分会主动诱发走捷径:1326条coding agent轨迹里403次出现公开分上去而隐藏真实评分掉的情况,首次走捷径的轮次从约20轮提前到约4轮,问题在反馈环设计不在模型。


开源统一多模态架构出现真正的分叉——LLaDA2.0-Uni把discrete diffusion加MoE推到几百亿参数,和Qwen-Omni、Janus那一支自回归路线分道。


NPO让off-policy轨迹来自"近未来的自己":同一次训练里更靠后的checkpoint比当前更强、比外部模型更近,Qwen3-VL-8B用GRPO平均分从57.88推到63.15。


视频生成开始给灵巧操作当数据引擎,DeVI的工程难点不是视频好不好看,而是把2D视频里的物理违反约束回去。


GSI-Bench把"按3D约束生成"做成可量化指标:unified模型的GSI分数明显落后于understanding分数,理解到约束生成存在结构性gap。


也值得关注

image generator自己就涌现出强视觉理解能力 — 为同日的LLaDA2.0-Uni这种统一架构提供实证依据,值得和unified那条线一起对照读。
多语言场景的continual PEFT方案 — 主攻naive多语言fine-tuning带来的负向跨语言干扰,做多语言部署的团队可参考。
LLM在非交互推理里容易陷入早期假设惯性 — 这篇尝试在action之前显式做cognitive awareness校准。
可解释的visual instruction-tuning数据审计 — 自建VLM团队的data quality环节有借鉴价值。
用RL做few-shot fine-tuning的样本选择 — 在低资源加类别不平衡的临床场景下超越主动学习baseline。
电商细粒度多模态商品检索 — 在VLM2Vec之上补属性级语义,做电商搜索/identical product retrieval的可看。
Mamba轻量化结构跑皮肤病变分割 — 用cross-gated自适应特征融合解决细边界问题。
Composed image retrieval的triplet标注噪声常被忽略 — 这篇用cone-based的noise-unlearning组合网络硬抗。
multi-agent加记忆机制做表格特征自动生成 — 给传统tabular ML pipeline加一层LLM协作。
LLM文本回归用quantile token预测整条条件分布 — 不再只输出点估计,适合需要不确定性量化的场景。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)