近日,有媒体报道称,GPT-5.6 还没大规模放出来,监管先到了门口。
这份报告的名字叫《The Shift to Agentic AI: Evidence from Codex》(向智能体 AI 的转变:来自 Codex 的证据)。研究对象是 OpenAI 自家的 Codex,就是这段时间以来国内外互联网的流量密码,能读文件、跑命令、改代码、生成文档、调用工具的 agent 产品。
Codex 渗透到越来越多场景的能力,似乎能解释为什么 GPT-5.6 的发布节奏会变得敏感。
它可能无法直接代表普通公司今天的状态,但是展示了一种潜在的未来公司形态:当权限、工具、流程都打开之后,非技术岗位也能开始用 agent 做好工作。
在个人用户样本里,2025 年 12 月,35.4% 的活跃用户提交过至少一个「熟练人类需要 1 小时以上」的任务。到 2026 年 5 月,这个比例升到 70.2%。
用户拿 Codex 做什么?
报告看了三个指标:并发、运行时间、skill。并发是说大多数人开始在一周内同时跑多个 Codex 任务,管理多个 Agent。运行时间上,平均每天 71 小时的 Codex 运行时间最能说明问题。
报告说,2026 年初,OpenAI 的法务、招聘等岗位几乎还没怎么用 Codex;到 4 月左右,这些岗位的 Codex 输出占比已经和工程数据一样,快速冲到很高的位置。
这数据很明显是在说:用 Codex 的人还没那么多,但一旦用上,使用强度很高。尤其在组织里,Codex 已经从一个小众工具,变成重度用户的主要工作界面。
而到了今年 6 月,从工程、法务、金融到人事,OpenAI 员工平均超过 90% 的工作量都交给了 Codex,OpenAI 活跃员工里,97.9% 用过 Codex。
AI 的能力可能会像资源一样,是人力资源也是物质资源。
报告把任务分成几大类:代码实现、代码理解、代码验证、工程运维、应用管理、数据分析、研究、知识产物、协作、业务流程。
具体到从岗位看,工程师仍然是最早、最明显的一批。外部组织用户中,工程技术岗位的平均 Codex 输出占比达到 26.8%,数据和分析岗位约 15.2%。法务、招聘等非技术岗位也在增长,但平均占比还低,比如法务只有 1.9%。
前段时间 Fable 5 关闭,社交媒体上很多人在嘲讽 Anthropic 的 CEO,说「谁让你天天搞那些耸人听闻的营销,什么被吓到了,恐怖到要关闭,现在真的被关闭了吧!」
据外媒报道,美国政府要求 OpenAI 把 GPT-5.6 的早期访问限制在少数经过批准的企业客户中,理由是安全评估。
OpenAI 内部的曲线更激进。工程、数据岗位直接飙升,随后招聘、法务等岗位也快速跟上。
报告里一些夸张的数据像是,OpenAI 每周可能消耗上千万亿 Token,其中 99.8% 都是来自 Codex。
▲ 去年 OpenAI 的 ChatGPT 分析报告显示,49% 的消息都属于询问
ChatGPT 曾经是 OpenAI 内部默认的 AI 工作工具,在 2025 年 8 月,OpenAI 员工平均在 Codex 上的花费不到其 Token 的 10%。
「你用不用 AI」,正在变成一个废问题
Codex 这份报告将衡量 AI 应用深度的指标,定位在我们交出去的任务有多重、agent 替人类跑了多久、用户是不是在同时盯着好几条工作线。
当 AI 只会聊天,「用没用」确实是个好指标,我们问它,它回答,用了就是用了。可一旦 AI 能替我们干活,该问的就变成了,我们能把多少活交出去,以及,有没有开始围着「给 AI 分配任务」重新安排自己的一天。
当模型只是在聊天框里回答问题,风险主要来自它说了什么;当模型可以调用工具、读写文件、执行任务,风险就会进入真实工作流。能力越接近执行层,发布就越像基础设施上线,无法再只是按普通产品更新来理解。
现在,GPT-5.6 的命运好像要和 Fable 5 一样,甚至还没有正式发布,就被美国政府要求审核分批发布。
曾经 Codex 还被很多人当成程序员工具看,但增长最快的新增人群,已经来自非开发者。换句话说,Codex 的扩散路径正在从写代码的人,走向做文档、数据、研究、销售、招聘、法务和运营的人。
▲ 有网友发梗图表示震惊,怎么会有用户一天能运行 Agent 71 个小时
报告里也很清晰地说明了,Codex 现在适用哪些场景,哪些人;他们把用户分成三类:个人用户、外部组织用户、OpenAI 员工。
也就是说,在 OpenAI 内部,工作场景里的 AI 使用,几乎已经切到了 Codex 上。
Codex 把整个倒了过来,人们用它「做」——调试、重构、验证、配环境、写文档、跑数据。
到了 OpenAI 内部,任务范围继续往外扩展。报告提到,OpenAI 员工会用 Codex 做研究和数据分析等工作,外部组织用户也开始出现类似用法,尤其是销售、市场、招聘等岗位,会用 Codex 生成知识产物,比如文档、材料、说明、报告等。
按每天 Codex 运行总时长从低到高排序,排到第 99 百分位的那批顶端重度用户,每天可以产生平均超过 60 小时的 Codex 智能体运行时间,因为多个 agent 并行跑,所以一天能超过 24 小时。
▲说是回归,但是能体验到的人还是少数
报告里还有一张很关键的图:Codex 的增长已经不只靠开发者拉动。
从图表看,软件相关任务仍然占大头。用户不只是让 Codex 写新代码,也会让它读已有代码、解释架构、修 bug、跑测试、配置环境、管理仓库、处理构建和发布问题。
虽然 OpenAI 内部的数据,某种程度上只能算是一个低摩擦样本,毕竟 OpenAI 员工熟悉模型,公司有充裕的使用额度,内部培训和经验分享也多。
几乎同一时间,OpenAI 放出了一篇关于 Codex 的研究报告,里面大量的数据,似乎更能解释这种紧张感的来源:AI 早就开始从「回答问题」,真实的走向了「替人完成一段工作」。
OpenAI 早先发过一份分析 ChatGPT 的报告,结论是:人们用 ChatGPT,将近一半是在「问」——问问题、找信息、要提议。
报告里有一个任务复杂度图,专门估算用户交给 Codex 的任务,如果让熟练人类独立完成,大概要花多久。
2026 年 6 月,外部组织账号里的非开发者 Codex 活跃用户,相对 2025 年 8 月 1 日已经接近 189 倍;个人账号里的非开发者也超过 130 倍。
差异很明显。到 2026 年 6 月 11 日前的 28 天,个人活跃用户里,只有 0.7% 用过 Codex;外部组织用户高很多,达到 17.3%;OpenAI 内部则接近全员使用,达到 97.9%。
▲ 外媒报道美国政府出于安全考虑,要求 OpenAI 分阶段揭晓新模型
过去三年,几乎所有关于 AI 的讨论都绕着一个问题转:你要不要用。
但如果按输出 token 算,Codex 的存在感会更强。个人用户里,Codex 贡献了 16.5% 的输出 token;外部组织用户里,这个比例已经到 63.3%;OpenAI 内部更极端,Codex 占 Codex 和 ChatGPT 总输出的 99.8%。
虽然 Codex 这么强了,但是报告里还有一个数据很现实,在过去 28 天内活跃于 ChatGPT 或 Codex 的 Go、Free、Pro 和 Plus 套餐用户中,使用 Codex 的用户不到 1%。
而 Skill 则代表了另一种变化,用户开始把重复工作沉淀成可复用流程。报告说,活跃 Codex 用户中,调用过 skill 的比例从 2026 年 3 月 1 日的 5.4%,升到 6 月 11 日的 26.6%。个人用户是 25.7%,外部组织用户是 30.4%,OpenAI 内部达到 96.2%。
当 Agent 真实地在改变工作组织方式的时候,一个人可以同时开几个任务,让一个 agent 查资料,一个 agent 改脚本,一个 agent 生成表格,一个 agent 写说明文档。人站在中间,像项目经理,也像编辑,决定哪些结果能进下一步。
更重的任务也在增加。提交过至少一个「8 小时以上」任务的用户比例,从 2.1% 升到 25.6%。
这些数据或许并不能直接等同于生产率提升,但这足以说明 Codex 进入工作流后,AI 的使用形态变了。
所以,跟着我们往期的 Codex 教程一起来上手这个时代的 Agent 工具吧。
此事一出,立即引发了社会各界的广泛讨论和关注。