单GPU训120B·视频评测四成靠猜


            
        April 8, 2026
    
    
单GPU训120B·视频评测四成靠猜


单卡全精度训120B参数，吞吐量比DeepSpeed快1.84倍。 MegaTrain把GPU降级为临时计算引擎，参数全存CPU内存，流水线双缓冲突破带宽瓶颈，单机路线的性价比值得小团队评估


40-60%的视频理解题不需要看视频就能答对——两篇独立工作同时揭示模型在做"阅读理解"而非"视频理解"，过滤文本偏见后用更少数据训练反而提升6.2个点


不指定催化位点，AI自主设计的酶活性超过人工工程化酶。 DISCO用扩散模型同时生成序列和3D结构，inference-time scaling将搜索扩展到自然界未探索的化学空间


办公Agent成功率53-63%，不安全操作率7-23%。 Apple的ClawsBench在高保真多服务工作空间中暴露了8种系统性失败模式，能力强不等于更安全


也值得关注

Google MedGemma 1.5升级：单架构同时处理CT/MRI体积数据、病理切片和多时间点胸片。 4B参数模型覆盖三维影像、病理和纵向对比三大医学影像场景。
CMU改进稀疏记忆微调：让LLM持续吸收新知识而不损害已有能力。 标准微调容易遗忘，稀疏记忆方法在知识注入和能力保持之间找到更好的平衡点。
训练时主动控制模型记住什么、忘记什么，不是事后检测而是事前调控。 ACL工作，通过训练框架直接调节记忆行为，为隐私合规和知识管理提供新思路。
可靠的多比特水印方案，在LLM输出中嵌入可追溯二进制信息。 ACL工作，不同于单比特检测"是否AI生成"，多比特水印能标记具体来源和版本。
多语言模型按书写系统而非语言学结构组织表征——同一种语言换字母就被分到不同cluster。 ACL工作，对多语言模型的内部组织方式提出了新的理解框架。
Yale多Agent论文写作框架：重点解决文献综述深度不足的问题。 多个专业化Agent分工协作，在文献覆盖度和综述质量上优于单Agent方案。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)