妙镜

十袭珍藏,但誓传家而永寳

不要忽略忽略能力 —— 揭穿 claude 的独门绝技

2026-01-17


前言

2025, 模型厂商在基础能力上卷无可卷。 眼馋 Cursor, Claude Code 靠写代码发了财, 于是埋头卷代码; 又看 Claude Code 扮的 Agent 丝滑跟手, 就捏十万个docker校场苦练怎么调工具。 这层表象, 天天刷 AI 新闻的你看得出来, 天天刷 AI 新闻的模型厂商员工也看得出来。

看不出来的, 是 Claude 的高瞻远瞩、渊深城府。 看不出来的, 是一个天天哭闹着反华的跳梁小丑, 怎么靠隐瞒、误导包括御三家在内的一众同行, 来保持自家模型独门绝技式的领先。

第一集 思路决定出路

回合一 ChatGPT vs Claude

ChatGPT 发明工具调用 (函数调用), 又根据工具调用, 发明了 GPTs 商城 (ChatGPT plugins)。
Claude 发明 MCP, 又根据 MCP, 发明了 Claude Code.

工具调用要求模型懂得"我手握锤子, 有没有钉子要敲", 于是每个 GPTs 有自己一套工具, 各司其职。
MCP 要求模型懂得"我手提一箱起子扳手, 得拿哪几把", 于是 Claude Code 在代码仓库如鱼得水。

如今有目共睹。 GPTs 销声匿迹; Claude Code 如日中天。

回合二 Gemini vs Claude

Gemini 推出百万级窗口 https://www.youtube.com/watch?v=NHMJ9mqKeMQ

Claude 推出 Skill https://www.youtube.com/watch?v=CEvIs9y1uog

有了百万级窗口, 我们不必建向量搜索数据库 RAG, 而是不论好赖统统塞进上下文里, 让聪明模型厘清一切。
有了 Skill, 我们不必建向量搜索数据库 RAG, 而是根据简述, 让聪明模型挑拣, 动态按需加载所需的文档。

后续显而易见。 百万窗口身陷 Context Rot, Gemini 兜兜转转, 不得不推出 RAG API ; Claude Code 依旧遥遥领先, codex、 gemini-cli 望其项背。

到这里敏感的读者可能已经察觉线索, 摸出门道了。 不过写到这里证据还不充分, 不好贸然下结论。 我们再多分析下 claude code.

第二集 软件巧妙还是模型巧妙

claude code 初显世时, 老百姓并不觉得巧。 一来 Agent 泛滥成灾, 二来 AI 写代码尚有 cursor 老大站台, 轮不到你摆谱。

很显然诸模型厂商同时嗅到 AI 编程煌煌大势, 必须冲。 往哪冲? 看到编程跑分榜、 Agentic 跑分榜了吗? 冲冲冲…… 身处当世最大泡沫, 挤着无数聪明人, 如果没有特别巧妙的差异化策略, 或者有策略但守不住, 局面必然导向你方唱罢我登场, 各领风骚数星期 —— AI 编程的 IDE 时代正是如此。

凭什么 claude code 后来居上、 一枝独秀、 在 AI 编程的 CLI 时代独领风骚好几月?

观L站大量帖子可知, 当前最热门的 AI 编程方案, 就是 claude code + claude模型, 且两者强耦合:
有一帮佬友买了 GLM、 Kimi 套餐, 强行套 claude code 头上, 发现太笨, 结论是模型问题;
另一帮佬友在谷歌家里当美国学生, 用 gemini-cli 调 claude 模型, 发现差点意思, 结论是软件问题。

所以到底是软件工具更巧, 还是模型更巧, 岂不难说? 须知 vibe 当道, CLI/TUI 软件好抄, 模型能力不好抄。 软件是控制论的产物, 有迹可循; 但 AI 智能从神经网络涌现, 难以把握。 Claude 在 claude code 阶段的隐瞒, 让同行觉得不过是 claude 模型 “很会写代码” 而已, 以为自己再多多刷题, 多泡在docker泡影里无穷幻想, 假以时日, 彼可取而代之。

直到 Claude 推出 Skill, 仍有人看不惯 AI 厂商生造概念, 讥笑道, Skill 不过是另一种 prompt 罢了。 Claude 听了定要窃喜其欺瞒战术继续成功。 可当看到 ChatGPT 偷学 Skill, 同样秘而不宣, 再迟钝的模型厂商也该悟到。 Claude 其心昭昭, Claude Code 其意澈澈。 Anthropic 战略图穷匕见, 水落石出。

凭借工具调用和百万窗口, 我们能打造千百台 Agents; 凭借 MCP 和 Skill, 我们只需要一台 Agent.
这台 Agent 坐拥 MCP server 池, 顺手捞出恰巧调用; 背倚 SKILL .md 柜, 随手抽出正好加载。

原来, Claude 苦练的秘技, 一直是模型的"挑选"能力。
挑选能力本质上, 是明确"我"需要调用什么、 加载什么, 主动表示这种意图的能力;
挑选能力本质上, 是辨别信噪的能力, 是排除干扰的能力, 是忽略能力。
Claude 明面卷编程, 暗地偷练"忽略"。

几家照猫画虎, 速成 codex、 gemini-cli, 不料正着了 Claude 的道。 谷歌说 “我们没有护城河, OpenAI 也没有”, Claude 应声附和 “就是啊”, 转头就启动 “面壁计划” 修好了自己的护城河, 瞒天过海, 忽悠得同行纷纷忽略 “忽略” 能力。 等到 “没有护城河” 的那几家恍然大悟, 原来是这方面基础能力不行, 又得起码花几个月、 训练几轮才能追上。

第三集 小镇做题家

就有人要问了: “挑选” 过程明明还包括模式匹配、 结构化输出……种种基础能力, 怎么就偷换成 “忽略” 了? 你怎么知道别的模型没练过 “忽略” 能力? 又怎能污人清白, 控诉 Claude 狡猾诡诈? 好问题, 这一切, 都指向万物起源、 百川归处、 阴影帷幕后的主宰、 所有模型商的眼中钉、 心头好 —— 跑分。

说什么基本素养, 道什么综合能力, 任何吹嘘落到实处, 只有刷题, 只看跑分, 只能打榜。 博闻强识有 MMLU, 数学逻辑有 GSM8K, 长上下文有大海捞针, 科研精神有 GPQA, 谄媚讨好有 LMArena ……

偏偏没有哪个榜, 是按照抗干扰能力跑分的。 嗳, 话不能说太死, 野题野榜千万万, 总有那么几款。 然而你去 GitHub 数星, 去 Hugging Face 数心, 去 arxiv 数引用, 无论怎么数, 这些榜都野得入不得老爷们法眼罢。

模型商不重视研发某项能力, 不等于模型自己不能自发涌现这种能力。 可悲的是, 模型并没有自发涌现 “忽略干扰信息” 的能力。 一句 “猫是液体” 就能让多数模型可悲地一边解数学题, 一边想入非非、 魂不守舍, 题都解歪了。 形似的跑分是 “干草堆里的针”。 它只管你能不能在液态猫窝里找到数学题, 不管你找到数学题前后花了多少功夫玩猫。

重视自己"要什么"容易, 忽视自己"不要什么" 难。 虽然干扰坏处大, 值得重视, 但 “忽略干扰信息” 这项能力没得跑分、 没人打榜, 模型商不重视, 模型光靠自己生长不出来, 一派恶性循环的景象。

Anthropic 各种新闻稿也看不到鼓吹 Claude 这项能力的说法。 偏偏从包括 MCP、 Skill 等 Claude 生态构建过程看得出来, 这项能力对于 Claude 举足轻重, 至关重要。 绝对能力强不强不好说 (毕竟无分可跑), 起码大概只有它专门练过。

第四集 殊途不同归

我们假设另一种情景: “忽略” 并非 Claude 瞒报的独门绝技, 而各大模型商也各显神通, 轻松拿下这项指标: 思考模型无需针对性训练, 只需多花点思考 token 就能自行分辨哪些信息不重要, 而 DeepSeek 再端出新狠活, 发明一种稀疏注意力, 釜底抽薪, 直接用底层算法屏蔽不重要的信息。

白日梦醒, 梦想局部成真: 思考模型能轻松分辨是真的, 轻松分辨后依然被严重干扰也是真的 ; DeepSeek 的稀疏注意力是真的, 人家是真有绝活。 不过这个绝活跟我们前面说的 “忽略” 能力是不是一码事, 还有待研究。

在变形金刚注意力机制范围内, 知道什么重要, 大可等同于, 知道什么不重要。 那么这跟涌现智能的注意力是一码事吗? 有怀疑要验证。 我们来看看 DeepSeek-V3.2-Exp 论文, 他就实现了变形金刚注意力的忽略技术, 说是降本又不增笑。 也就是说 deepseek-v3.2 的忽略主要是为了省钱省内存, 而不重视培养 “忽略” 能力本身。 论文也只去验证跟 v3.1 比有没有退步, 而不验证智能尺度的 “忽略” 能力。 所以我们拿官网版 deepseek-v3.2 实测: https://chat.deepseek.com/share/cv9qlc1hcnjrrg53g9 显然, 本该排除的干扰项一个不落, 用户体验很差。

于是验证了之前的怀疑: 在变形金刚注意力身上实现的忽略, 并不能让大模型智能自动获得 “排除干扰信息” 的能力。

Claude Skill 出了个把月, 已成旧闻。 新出的 Claude Cowork 再次印证了忽略能力的战略地位。 面壁计划一旦破壁, 护城河顿时烟消云散。 不敢低估模型商跟进的速度。

结语

闷声大发财, 这是坠吼的。
小亮, 给他整个活。 草, 走, 忽略。