Claude Sonnet 4.6实测：Opus级别的能力，Sonnet的价格

Anthropic两天前（2月17日）发布了Claude Sonnet 4.6，官方说法是”接近Opus级别的智能”。这种话听多了容易免疫，但这次我实际用了两天，结论是：这话没怎么吹。

我关注的点主要三个：编码能力、computer use、长上下文推理。下面逐个说。

先说结论

如果你现在用Sonnet 4.5写代码，升级到4.6是无脑操作。如果你在用Opus 4.5但心疼费用，Sonnet 4.6可以替代大部分场景。价格还是$3/$15 per million tokens，跟4.5一样。

编码能力：终于不”懒”了

Sonnet 4.5最让人烦的问题是”懒”——多步骤任务做到一半就开始糊弄，声称完成了但其实没做完。4.6这个毛病明显好转。

我拿了一个实际场景测试：让它重构一个React表单组件，要求把受控/非受控模式统一、加上Zod校验、同时保持向后兼容。

// 给Sonnet 4.6的prompt
// 重构这个FormInput组件：
// 1. 统一受控/非受控模式，用useControllableState
// 2. 加Zod schema校验，错误信息支持i18n
// 3. 保持现有API不变，新功能通过可选props暴露
// 原始组件大概200行，省略...

Sonnet 4.5的表现：能完成基本重构，但经常漏掉边界情况。比如非受控模式下defaultValue变化时的行为没处理，Zod校验的async validate场景直接跳过了。追问才补上。

Sonnet 4.6的表现：一次性产出了完整实现。不光处理了上面提到的边界，还主动加了discriminated union来区分受控/非受控的类型——这是我没要求的，但确实是更好的做法。

// Sonnet 4.6生成的类型定义（节选）
type ControlledProps = {
  value: string;
  onChange: (value: string) => void;
  defaultValue?: never;
};
type UncontrolledProps = {
  value?: never;
  onChange?: (value: string) => void;
  defaultValue?: string;
};
type FormInputProps = (ControlledProps | UncontrolledProps) & {
  schema?: z.ZodType;
  validateOn?: 'change' | 'blur' | 'submit';
  locale?: string;
};

这种discriminated union的写法，之前我在Opus 4.5上才见到过。Sonnet级别的模型能自发产出这种代码，说明推理能力确实上了一个台阶。

Anthropic给的数据是：Claude Code用户70%的时候更偏好4.6而不是4.5，甚至59%的时候偏好4.6而不是Opus 4.5。在我的体验中，这个数据基本可信。

Computer Use：从能用到好用

这是这次升级最值得说的部分。

Anthropic 2024年10月第一次推出computer use的时候，自己都说”还很实验性，有时候笨拙且容易出错”。我当时试了一下，确实——鼠标点不准、表单填错位、多步骤操作到第三步就迷路，基本是个玩具。

Sonnet 4.6在OSWorld benchmark上的表现有了质的提升。OSWorld是目前衡量AI操作电脑能力的标准测试，任务包括在Chrome、LibreOffice、VS Code等真实软件上完成操作，没有特殊API，就是看屏幕、点鼠标、敲键盘。

模型	OSWorld得分	发布时间
Sonnet 3.5 (初版computer use)	~14%	2024.10
Sonnet 3.5 (升级版)	~22%	2025.01
Sonnet 4.0	~33%	2025.06
Sonnet 4.5	~42%	2025.10
Sonnet 4.6	~54%	2026.02

16个月，从14%到54%。这个进步速度是有点吓人的。

实际体验上，早期用户反馈说”在复杂电子表格导航和多步骤表单填写上接近人类水平”。我自己试了一个场景：让它在一个多tab的Google Sheets里，从三个不同sheet里汇总数据到一个新sheet。Sonnet 4.5做这个任务大概成功率50%，经常在sheet切换时丢失上下文。4.6基本能一次搞定。

不过还是要说实话：computer use目前还是比不上熟练的人类操作。它更适合那些重复性高、步骤明确但没有API的场景——比如在一个老旧的内部系统里批量录入数据，或者在不提供API的SaaS平台上自动化操作流程。

1M上下文窗口：整个代码库塞进去

Sonnet 4.6把上下文窗口扩到了1M token（beta）。数字本身不稀奇，关键是”能不能在这么长的上下文里有效推理”。

我做了一个粗暴的测试：把一个中型Next.js项目（大概15万行代码）整个丢进去，然后问它一个跨多个模块的bug。这个bug涉及三个文件的交互——一个middleware、一个API route、一个数据库查询。

# 用repomix打包整个项目
npx repomix --output /tmp/repo.txt
# 大概400K tokens
wc -w /tmp/repo.txt
# 约320000词

Sonnet 4.5在这种大上下文场景下经常出现”遗忘”——它会引用文件A的内容，但在分析文件B的时候忘了文件A里的关键细节。4.6明显更稳，能在三个文件之间来回引用，最终准确定位到bug（middleware里的一个header处理顺序问题导致API route拿到了错误的auth状态）。

Anthropic提到一个有意思的测试叫Vending-Bench Arena——让AI模型经营一个模拟生意，看谁赚最多钱。Sonnet 4.6的策略是前10个月疯狂投资扩产能，最后几个月急转弯冲利润。这种”延迟满足”的策略规划能力，说明长上下文推理不只是”记住内容”，而是真的能基于大量信息做出战略判断。

Prompt Injection防御提升

Computer use最大的安全隐忧是prompt injection——恶意网站在页面里藏指令，让AI执行意料之外的操作。Sonnet 4.6在这方面的防御能力比4.5有”重大改善”，接近Opus 4.6的水平。

这点很重要。如果你要在生产环境部署computer use，模型不够抗prompt injection基本就是在裸奔。4.6至少让这个场景变得可以认真考虑了。

适用场景和迁移建议

场景	推荐模型	理由
日常编码	Sonnet 4.6	性价比最优，能力接近Opus
复杂重构/架构设计	Opus 4.6	最深的推理能力，不差这点钱
Computer use自动化	Sonnet 4.6	性价比远优于Opus，能力够用
大代码库分析	Sonnet 4.6	1M上下文+有效推理
多Agent协调	Opus 4.6	需要最强的规划能力

API上模型名是claude-sonnet-4-6，支持adaptive thinking和extended thinking。如果你之前的代码里hardcode了claude-sonnet-4-5，改一下就行。

还有一个新feature值得注意：context compaction（beta）。对话太长的时候会自动压缩旧的上下文，相当于变相增加了有效对话长度。对于长会话的agent场景挺实用。

踩坑记录

用了两天也不是没遇到问题：

前端样式偏好变了：4.6生成的CSS明显偏爱现代写法（container queries、view transitions），如果你的项目还要兼容旧浏览器，记得在prompt里明确说
Extended thinking开销：4.6的adaptive thinking默认会比4.5消耗更多thinking tokens。如果你对延迟敏感，可以显式关掉或设low effort
Computer use截图分辨率：分辨率太高的时候偶尔还是会点错位置，建议把虚拟桌面分辨率控制在1920×1080以内

Sonnet 4.6是近半年Anthropic最有诚意的一次更新。不是那种”benchmark涨了两个点”的挤牙膏式升级，而是在编码、computer use、长上下文三个方向都有体感明显的提升。$3/$15的定价不变，升级没有任何理由犹豫。

近期文章

分类

其他操作

AI · 2026年2月19日

Claude Sonnet 4.6实测：Opus级别的能力，Sonnet的价格

先说结论

编码能力：终于不”懒”了

Computer Use：从能用到好用

1M上下文窗口：整个代码库塞进去

Prompt Injection防御提升

适用场景和迁移建议

踩坑记录

您可能还喜欢...

AI · 2026年2月19日

先说结论

编码能力：终于不”懒”了

Computer Use：从能用到好用

1M上下文窗口：整个代码库塞进去

Prompt Injection防御提升

适用场景和迁移建议

踩坑记录

您可能还喜欢...

RAG知识库投毒实测：3篇假文档让AI把2470万营收说成830万

谷歌180种Agent架构实测：多Agent协作可能让你的系统更烂

AWS的AI编程工具搞崩了生产环境：Kiro自作主张删库重建，停机13小时