Meta眼镜私密画面外包审看,ChatGPT卸载量暴涨295%
1. GPT-5.3 Instant与Gemini Flash-Lite同日发布,AI竞赛重心从能力转向成本 3月3日,两家AI巨头几乎同时发了新模型,但两款产品的卖点都不是「更聪明」。GPT-5.3 Instant取代旧版,成为所有用户的默认对话模型,主打「更顺畅的日常对话」。同一天,谷歌发布了Flash-Lite,口号是「为规模化智能而生」。两家不约而同选了同一个方向,不追天花板,压地板。
2. Meta智能眼镜录下用户私密画面,外包标注员被迫逐帧审看 在内罗毕,Meta的外包标注员每天审看智能眼镜用户录下的视频:有人在卧室换衣服,有人露出银行卡,有人在上厕所。一名标注员对瑞典《每日新闻报》说:「你知道自己在看别人的私生活,但只能继续干。」另一人更直接:「开始问问题,你就走人。」
3. 微软封禁「Microslop」后锁定社区服务器,同周ChatGPT卸载量暴涨295% 用户在微软的官方Discord社区里给自家AI助手起了个外号:「Microslop」。上周微软把这个词加进了自动过滤名单,包含它的消息直接被删除。
快讯
- Google DeepMind发布Project Genie提示词指南 Google DeepMind公开了Project Genie的4条提示词技巧,帮助用户通过文字描述生成可交互的3D世界。
- SWE-rebench V2:首个多语言大规模软件工程任务集 该数据集覆盖多种编程语言,为软件工程Agent的强化学习训练提供可复现的执行环境和测试套件,解决了现有训练数据规模不足、语言覆盖单一的问题。
- 开发者从零构建延迟低于500毫秒的语音Agent 一位开发者在Hacker News上展示了自研语音Agent,端到端延迟控制在500毫秒以内。
- LLaDA-o:混合扩散架构统一多模态理解与生成 LLaDA-o采用「混合扩散」框架,用离散掩码扩散处理文本理解、连续扩散处理图像生成,两者共享注意力骨干网络以减少冗余计算,并引入数据驱动的长度自适应机制。
- OmniLottie:从文本和图片直接生成Lottie矢量动画 该框架将Lottie JSON格式参数化为紧凑token序列,去除冗余结构元数据,使多模态大模型能够根据文字或图片指令生成可编辑的矢量动画。
- CHIMERA:用紧凑合成数据提升LLM推理泛化能力 研究提出一套数据合成框架,针对推理训练中缺少长链思维轨迹、数据多样性不足、质量难以验证三个瓶颈,生成可直接用于SFT和RL后训练的推理数据集。
- CoVe:用约束验证框架训练多轮工具调用Agent CoVe先定义显式任务约束,再用这些约束同时引导数据合成和验证结果正确性,解决了工具调用训练数据既要复杂又要准确的矛盾。
- OpenAutoNLU开源:无需手动配置的NLU自动化训练库 该库覆盖文本分类和命名实体识别任务,内置数据感知的训练策略自动选择、数据质量诊断和分布外检测功能,支持低代码使用。
- WorldStereo:用3D几何记忆连接视频生成与场景重建 该框架在视频扩散模型中引入3D几何记忆模块,解决了生成视频在不同相机轨迹下内容不一致、难以重建3D场景的问题。
- Image-CoT方法适配图像编辑:自适应推理时间分配 研究指出图像编辑不同于文生图,解空间受源图和指令约束,固定采样预算会导致资源浪费。论文提出自适应测试时缩放策略,按编辑难度动态分配推理计算量。
Don't miss what's next. Subscribe to AI资讯速览: