AI 生态日报 | 2026年05月10日

自动采集 · AI 领域最新动态

X/Twitter AI 大V

@OpenAI

Chain of Thought 监控是防止 AI 智能体错位的重要防线。为保持可监控性，我们在 RL 训练中避免惩罚错位的推理过程。
| 🔗 https://alignment.openai.com/accidental-cot-grading/
我们发现少量意外发生 CoT 打分的案例，影响了已发布的模型，现分享我们的分析。
| 🔗 https://alignment.openai.com/accidental-cot-grading/
直接奖励或惩罚 CoT 会使模型的推理痕迹对检测错位的信息量下降。这也是我们把避免 CoT 打分作为保持可监控性的重要部分的原因。
| 🔗 https://alignment.openai.com/accidental-cot-grading/
训练模型涉及许多技术和社会过程，因此必须在流程中内置防止 CoT 打分的机制。我们正在改进实时 CoT 分级检测、防止意外 CoT 打分的防护措施、可监控性压力测试，以及有助于在部署前发现这些问题的内部指导/检查。
| 🔗 https://alignment.openai.com/accidental-cot-grading/
我们还邀请了三家第三方 AI 安全组织对分析提供反馈：@redwood_ai、@apolloaievals、@METR_Evals。
| 🔗 https://blog.redwoodresearch.org/p/openai-cot
此系统帮助我们发现这在某些早期的 Instant 和 mini 模型中也曾发生。影响 GPT-5.4 Thinking 的样本比例低于 0.6%。
| 🔗 https://alignment.openai.com/accidental-cot-grading/

@sama

5.5 是一个具有特殊天赋的「自闭症天才」，命名品味相当独特，做出这样的东西确实令人惊讶。
| 🔗 https://x.com/sama
发起一堆 Codex 任务，带孩子在阳光下奔跑小憩，回来时发现它们全部完成了——这让我对未来充满信心。
| 🔗 https://x.com/sama
你们最希望在下一个模型中看到什么改进？
| 🔗 https://x.com/sama

@ylecun

通过更广泛地分发技术（包括开源），社会才能更安全。将 100 家公司的安全做好是不够的——GitHub 上就有 9600 万个开源项目。更广泛的分发才能提高每个人的水平，让社会更安全、更强大。
| 🔗 https://x.com/ylecun
Yann LeCun 将于 5 月 18 日在纽约大学 Tandon 学院 2026 届毕业典礼上发表演讲。
| 🔗 https://buff.ly/D8LwlPY
研究表明，尽管 AI 在国际象棋、围棋和雅达利游戏中有着详实的记录，但人类在学习陌生电子游戏时仍比任何 AI 模型快得多。
| 🔗 https://buff.ly/fbVkDrh

@AndrewYNg

新课程：用生成式 UI 构建交互式智能体。智能体不仅能返回纯文本，还能按需生成图表、表单、白板等自定义 UI 并直接在对话中展示。与 @CopilotKit 合作开设。
| 🔗 https://www.deeplearning.ai/short-courses/build-interactive-agents-with-generative-ui/
编程智能体对不同类型的软件工作加速程度不同。按加速程度从高到低排列：前端开发 > 后端 > 基础设施 > 研究。前端开发因智能体精通 TypeScript/JavaScript/React/Angular 等前端语言，且能通过浏览器检查迭代自己的实现而大幅提速。后端因需要处理更多边缘情况、安全缺陷等更难驾驭。基础设施因 LLMs 知识相对有限、关键决策难以信任 AI 而效果较差。研究工作除编码外还有很多内容，智能体帮助极为有限。
| 🔗 https://www.deeplearning.ai/the-batch/issue-350/
AI 原生软件工程团队运作方式与传统团队截然不同。AI 原生团队使用编程智能体更快地构建产品，同时涌现出许多其他变化。例如一些优秀工程师现在扮演更广泛的角色——既是产品经理，又是设计师，有时还是营销人员。小团队如果能在同一办公室面对面沟通，就能以难以置信的速度前进。
| 🔗 https://www.deeplearning.ai/the-batch/issue-349/
新课程：Spec-Driven Development with Coding Agents。与 @jetbrains 合作，@paulweveritt 讲授。规范驱动开发教你写详细规范来定义要构建的内容，然后与编程智能体协作实现。
| 🔗 https://www.deeplearning.ai/short-courses/spec-driven-development

@JimFan

困在空闲浏览器中，无法稳定空闲浏览器状态。
| 🔗 https://x.com/JimFan

OpenAI 最新动态

安全运行 Codex：OpenAI 通过沙箱审批、网络策略和原生智能体遥测来安全运行 Codex，支持安全合规的编码智能体应用。
| 🔗 https://openai.com/blog/running-codex-safely-at-openai
GPT-5.5 和 GPT-5.5-Cyber 扩展 Trusted Access for Cyber：帮助已验证的防御者加速漏洞研究，保护关键基础设施。
| 🔗 https://openai.com/blog/scaling-trusted-access-for-cyber
Parloa 构建用户愿意对话的服务智能体：利用 OpenAI 模型为可扩展的语音驱动 AI 客服智能体提供支持。
| 🔗 https://openai.com/blog/parloa-builds-service-agents
语音智能新进展：API 中的新实时语音模型，支持推理、翻译和转录，实现更自然、智能的语音体验。
| 🔗 https://openai.com/blog/advancing-voice-intelligence
在 ChatGPT 中测试广告：OpenAI 开始在 ChatGPT 中测试广告以支持免费访问，包含明确标注、答案独立性、强有力的隐私保护和用户控制。
| 🔗 https://openai.com/blog/testing-ads-in-chatgpt
ChatGPT 新增可信联系人功能：可选的安全功能，当检测到严重的自我伤害担忧时通知你信任的人。
| 🔗 https://openai.com/blog/introducing-trusted-contact-in-chatgpt

来源汇总

https://x.com/OpenAI
https://x.com/sama
https://x.com/ylecun
https://x.com/JimFan
https://x.com/AndrewYNg
https://openai.com/blog/rss.xml
https://alignment.openai.com/accidental-cot-grading/
https://blog.redwoodresearch.org/p/openai-cot
https://www.deeplearning.ai/the-batch/issue-350/
https://www.deeplearning.ai/the-batch/issue-349/

AI 生态日报 | 2026年05月10日

X/Twitter AI 大V

OpenAI 最新动态

来源汇总

欢迎登录