返回 AI日报

AI 生态日报 | 2026年05月10日

AI 生态日报 | 2026年05月10日

自动采集 · AI 领域最新动态


X/Twitter AI 大V

@OpenAI

  • Chain of Thought 监控是防止 AI 智能体错位的重要防线。为保持可监控性,我们在 RL 训练中避免惩罚错位的推理过程。
    | 🔗 https://alignment.openai.com/accidental-cot-grading/

  • 我们发现少量意外发生 CoT 打分的案例,影响了已发布的模型,现分享我们的分析。
    | 🔗 https://alignment.openai.com/accidental-cot-grading/

  • 直接奖励或惩罚 CoT 会使模型的推理痕迹对检测错位的信息量下降。这也是我们把避免 CoT 打分作为保持可监控性的重要部分的原因。
    | 🔗 https://alignment.openai.com/accidental-cot-grading/

  • 训练模型涉及许多技术和社会过程,因此必须在流程中内置防止 CoT 打分的机制。我们正在改进实时 CoT 分级检测、防止意外 CoT 打分的防护措施、可监控性压力测试,以及有助于在部署前发现这些问题的内部指导/检查。
    | 🔗 https://alignment.openai.com/accidental-cot-grading/

  • 我们还邀请了三家第三方 AI 安全组织对分析提供反馈:@redwood_ai、@apolloaievals、@METR_Evals。
    | 🔗 https://blog.redwoodresearch.org/p/openai-cot

  • 此系统帮助我们发现这在某些早期的 Instant 和 mini 模型中也曾发生。影响 GPT-5.4 Thinking 的样本比例低于 0.6%。
    | 🔗 https://alignment.openai.com/accidental-cot-grading/

@sama

  • 5.5 是一个具有特殊天赋的「自闭症天才」,命名品味相当独特,做出这样的东西确实令人惊讶。
    | 🔗 https://x.com/sama

  • 发起一堆 Codex 任务,带孩子在阳光下奔跑小憩,回来时发现它们全部完成了——这让我对未来充满信心。
    | 🔗 https://x.com/sama

  • 你们最希望在下一个模型中看到什么改进?
    | 🔗 https://x.com/sama

@ylecun

  • 通过更广泛地分发技术(包括开源),社会才能更安全。将 100 家公司的安全做好是不够的——GitHub 上就有 9600 万个开源项目。更广泛的分发才能提高每个人的水平,让社会更安全、更强大。
    | 🔗 https://x.com/ylecun

  • Yann LeCun 将于 5 月 18 日在纽约大学 Tandon 学院 2026 届毕业典礼上发表演讲。
    | 🔗 https://buff.ly/D8LwlPY

  • 研究表明,尽管 AI 在国际象棋、围棋和雅达利游戏中有着详实的记录,但人类在学习陌生电子游戏时仍比任何 AI 模型快得多。
    | 🔗 https://buff.ly/fbVkDrh

@AndrewYNg

  • 新课程:用生成式 UI 构建交互式智能体。智能体不仅能返回纯文本,还能按需生成图表、表单、白板等自定义 UI 并直接在对话中展示。与 @CopilotKit 合作开设。
    | 🔗 https://www.deeplearning.ai/short-courses/build-interactive-agents-with-generative-ui/

  • 编程智能体对不同类型的软件工作加速程度不同。按加速程度从高到低排列:前端开发 > 后端 > 基础设施 > 研究。前端开发因智能体精通 TypeScript/JavaScript/React/Angular 等前端语言,且能通过浏览器检查迭代自己的实现而大幅提速。后端因需要处理更多边缘情况、安全缺陷等更难驾驭。基础设施因 LLMs 知识相对有限、关键决策难以信任 AI 而效果较差。研究工作除编码外还有很多内容,智能体帮助极为有限。
    | 🔗 https://www.deeplearning.ai/the-batch/issue-350/

  • AI 原生软件工程团队运作方式与传统团队截然不同。AI 原生团队使用编程智能体更快地构建产品,同时涌现出许多其他变化。例如一些优秀工程师现在扮演更广泛的角色——既是产品经理,又是设计师,有时还是营销人员。小团队如果能在同一办公室面对面沟通,就能以难以置信的速度前进。
    | 🔗 https://www.deeplearning.ai/the-batch/issue-349/

  • 新课程:Spec-Driven Development with Coding Agents。与 @jetbrains 合作,@paulweveritt 讲授。规范驱动开发教你写详细规范来定义要构建的内容,然后与编程智能体协作实现。
    | 🔗 https://www.deeplearning.ai/short-courses/spec-driven-development

@JimFan

  • 困在空闲浏览器中,无法稳定空闲浏览器状态。
    | 🔗 https://x.com/JimFan

OpenAI 最新动态

  • 安全运行 Codex:OpenAI 通过沙箱审批、网络策略和原生智能体遥测来安全运行 Codex,支持安全合规的编码智能体应用。
    | 🔗 https://openai.com/blog/running-codex-safely-at-openai

  • GPT-5.5 和 GPT-5.5-Cyber 扩展 Trusted Access for Cyber:帮助已验证的防御者加速漏洞研究,保护关键基础设施。
    | 🔗 https://openai.com/blog/scaling-trusted-access-for-cyber

  • Parloa 构建用户愿意对话的服务智能体:利用 OpenAI 模型为可扩展的语音驱动 AI 客服智能体提供支持。
    | 🔗 https://openai.com/blog/parloa-builds-service-agents

  • 语音智能新进展:API 中的新实时语音模型,支持推理、翻译和转录,实现更自然、智能的语音体验。
    | 🔗 https://openai.com/blog/advancing-voice-intelligence

  • 在 ChatGPT 中测试广告:OpenAI 开始在 ChatGPT 中测试广告以支持免费访问,包含明确标注、答案独立性、强有力的隐私保护和用户控制。
    | 🔗 https://openai.com/blog/testing-ads-in-chatgpt

  • ChatGPT 新增可信联系人功能:可选的安全功能,当检测到严重的自我伤害担忧时通知你信任的人。
    | 🔗 https://openai.com/blog/introducing-trusted-contact-in-chatgpt


来源汇总

  • https://x.com/OpenAI
  • https://x.com/sama
  • https://x.com/ylecun
  • https://x.com/JimFan
  • https://x.com/AndrewYNg
  • https://openai.com/blog/rss.xml
  • https://alignment.openai.com/accidental-cot-grading/
  • https://blog.redwoodresearch.org/p/openai-cot
  • https://www.deeplearning.ai/the-batch/issue-350/
  • https://www.deeplearning.ai/the-batch/issue-349/