谷歌让开发者用API作曲,OpenAI一天补三张安全牌
1. 谷歌开放音乐生成API,Lyria 3正式面向全球开发者 开发者现在可以调用谷歌的音乐生成模型了。3月25日,Lyria 3以付费预览方式向全球开放。开发者通过Gemini API即可接入,模型分两个变体:Pro版生成最长约三分钟的完整歌曲。Clip版专攻30秒片段,面向快速原型和社交媒体场景。
2. OpenAI一天发出三道安全令:行为框架、赏金计划、青少年保护工具 OpenAI正在筹备上市。就在这个窗口期,公司同一天上线了三套安全体系,从模型行为的哲学准则一路铺到开发者可直接调用的青少年保护工具。
3. 数学AI同一周两路落地,发现与证明同步产品化 数学AI的两条路径在同一周各自推出了面向用户的工具:一条帮数学家发现模式,一条帮数学家写证明。两个团队互不相关,却同时判断时机已到。
快讯
- MinerU-Diffusion:用扩散模型重新定义文档OCR MinerU-Diffusion将文档OCR重新建模为「逆渲染」问题,用扩散解码替代自回归解码,降低长文档中的顺序延迟和错误累积。该方法在包含表格、公式和复杂排版的文档解析中表现优于传统方案。
- SpecEyes:用投机执行加速agent式多模态推理 针对o3、Gemini等agent式多模态模型反复调用视觉工具带来的延迟问题,SpecEyes提出在agent层面做投机加速——并行预执行感知和规划步骤,压缩级联调用的顺序开销。
- LLM Agent工作流优化综述:从静态模板到动态运行图 一篇系统综述梳理了LLM agent工作流(论文称之为「agentic计算图」)的设计与优化方法,按工作流结构的确定时机分类,覆盖LLM调用、工具使用、代码执行、记忆更新和验证等环节的编排策略。
- WildWorld:面向生成式ARPG的大规模世界模型数据集 WildWorld发布了一个包含动作、显式状态和视觉观测的大规模数据集,用于训练动作条件世界模型。现有数据集通常缺乏多样且语义丰富的动作空间,该数据集试图填补生成式ARPG游戏场景的训练数据缺口。
- PEARL:首个面向流式视频的个性化理解模型 PEARL将个性化多模态理解从静态图片和离线视频扩展到流式视频场景,模型能在连续视觉输入中实时识别新对象和身份并更新记忆,面向未来AI助手的实时交互需求。
- mSFT:解决多任务微调中不同数据集过拟合速度不一的问题 mSFT提出了一种迭代搜索算法,自动检测并排除已过拟合的子数据集,动态调整训练混合比例。解决的核心问题是:统一计算预算下,学得快的任务过拟合而学得慢的任务欠拟合。
- SIMART:用多模态大模型将静态3D网格拆解为可交互资产 SIMART通过MLLM将单体3D网格分解为带关节的可交互资产,直接用于物理仿真和具身AI训练。相比多阶段流水线,单阶段方法减少了模块间的误差累积。
- SpatialBoost:用语言推理补齐视觉模型的3D空间感知短板 预训练视觉编码器主要在2D图像上训练,缺乏对物体间3D空间关系的理解。SpatialBoost通过语言引导的推理增强现有视觉编码器的空间感知能力,无需重新训练基础模型。
- 视频生成强化学习新方法:在流形上做探索,避免噪声注入破坏质量 针对GRPO在视频生成中远不如文本和图像领域可靠的问题,研究者提出在预训练模型定义的流形上做探索,替代传统ODE转SDE的噪声注入方式,稳定奖励估计并改善训练对齐效果。
Don't miss what's next. Subscribe to AI资讯速览: