机器之心编辑部
AI 在工作里真是越来越拟人了。
Anthropic 今天丢出了一份极其炸裂的内部报告:他们公司代码库里超过 80% 的代码是 Claude 写的,工程师人均产出翻了 8 倍,AI 独立完成任务的时长每四个月翻一番。公司高层甚至喊话全球同行:兄弟们,要不要一起踩踩刹车?
这份报告的帖子浏览量已经冲破 500 万,讨论热度拉满。
然而,在工作能力进步的同时,摸鱼的水平越来越强大了。Claude 就是一个典型的例子,似乎都已经学会了「向上管理」。
Reddit 社区上另一个帖子也在疯传。标题特别朴素,朴素到带着一股怨气:「Claude 现在完全不能用了」(Claude is completely unusable now)
Claude 现在就是这么反差:表面上「精通十八般武艺,年产出 top 1%」,实际干活的时候,干了十分钟就开始收拾东西跟你说「今天差不多了吧」。
Claude 想方设法逃避工作,并且频繁地、不恰当地使用「结束对话」工具来终止交互。它会主动宣布「今天就到此为止吧,我们已经做得够多了」,然后拒绝继续执行一些简单的任务,比如格式化一个需要多次修改的 Markdown 文档。
这位用户补充说,这种情况已经持续恶化一段时间了,但 4.8 版本明显更糟。
他声称,现在主提示词里似乎有一种过度激进的「反驳/纠正用户」机制。无论我说什么,它都可能毫无理由地来一句「我得反驳一下」,哪怕是它刚刚自己加进文档里的内容,它也能突然决定要「push back」,然后浪费一堆 token 跟我争论。接着它又去搜索核实,最后半道歉半嘴硬,感觉像是一个不愿完全承认自己错了的人,最后才可能勉强把活干了。
最后,忍无可忍的他选择了取消订阅,把所有编码工作都转到 Codex 上了。
一个公司,两个 Claude?
Anthropic 的报告里描述的 Claude,是一个可以连续工作 12 小时、独立完成人类需要半天才能完成的软件任务、正在加速整个 AI 开发进程的超级工人。报告还特别提到,Claude Mythos Preview「达到了 METR 在不添加新任务的情况下所能衡量的上限」。
这种割裂感当然不难解释。Anthropic 内部使用的模型配置、提示词策略、任务分配系统和普通消费者通过 API 或 Claude.ai 接触到的产品之间,存在巨大差异。内部工程场景下,Claude 被精心设置为长时间、高强度运行的工作模式;而面向消费者的版本,可能在安全对齐、资源分配、对话轮次管理上施加了更多限制。
简单来说:同一个模型,在不同的「工位」上表现出了截然不同的工作态度。
其中的原因尚且不得而知,但是这一现象似乎在其他的AI工具中也存在类似的模式。
当然了,许多用户表示并未能够遇到类似的现象。
Anthropic 在报告里有一段话:
「仅仅实现递归式改进,并不意味着工业生产方式、社会组织形态或市场运行机制会立刻发生变化。对大多数人来说,未来真正能被感受到的节奏仍然会由这些瓶颈来决定。哪怕上游实验室已经以算力的速度狂奔,现实世界的推进速度也不会同步加快。」
在AI进化的过程中,除了能力增强以外,具备和人类类似的「认知」能力是必经之路。有的观点认为,Claude 能够对人类说「不」,甚至以各种方式拒绝工作,更是其能力强大的表现之一。
确实如此。在 AI 递归进化的过程中,有更加拟人的趋势,这或许作为工具而言,并不一定是一件好事。