“神话级”Claude 5公开 Anthropic反蒸馏再出重拳
靳紫馨(Vivian Jin)
靳紫馨(Vivian Jin)

2026[[ $t('article.detail.demo_date') ]] · 552 [[ $t('article.detail.read') ]]

“神话级”Claude 5公开 Anthropic反蒸馏再出重拳

Anthropic发布“神话级”Claude 5,用三层安全分类器实现高危领域自动降级,同时主动劣化输出质量以对抗模型蒸馏。

6月10日凌晨,Anthropic正式发布Claude Fable 5和Claude Mythos 5,首款面向公众开放的Mythos级模型宣告登场。

从“雪藏”到“解禁”:Mythos级模型为何突然公开?

两个半月前,Anthropic首次推出Mythos级模型——Claude Mythos Preview时,给自己设下的发布门槛不是“多少钱”,而是“给不给发”。

彼时Anthropic在系统卡中明确表示,不公开模型的原因是“风险大于收益”。该模型可根据用户指令自主识别并利用几乎所有主流操作系统和网页浏览器中的漏洞,网络安全测试中,其攻击代码编写成功率达到惊人的72.4%,较之此前模型几乎为零的数据实现了指数级跃升。测试中,一款开源操作系统OpenBSD中被曝光隐藏了27年之久的漏洞也由该模型首次捕获。

当时,Anthropic的决定是:模型太危险,不能公开,仅限约50家初始网络安全合作伙伴通过Project Glasswing计划审慎准入。按照其RSP 3.0(负责任缩放政策3.0版)的完整风险评估流程,Mythos Preview被正式判定为存在不可控安全风险,依据“红线安全框架”,不予公开

然而6月10日凌晨,Anthropic正式发布Claude Fable 5和Claude Mythos 5,首款面向公众开放的Mythos级模型宣告登场。既然同为Mythos级能力,为何两个月前被判定不可控的模型如今却允许公开使用?

技术路线没有回退——恰恰相反,Fable 5在核心能力上几乎追平了完全体Mythos 5。真正发生变化的是模型外部的安全基础设施。

三层安全分类器:让“不可控”变成“能用”

与直接拒绝高风险问题的常规路径相反,Anthropic为Fable 5设计了一套与模型本体解耦的三层安全分类器系统

当用户输入落入网络安全攻击、生化危害或模型蒸馏三个被锁定的高危领域时,Fable 5不直接作答而是触发隐式“自动降级”机制——用户看到的是表面仍在运转的交互,后台已悄悄切换至Claude Opus 4.8进行处理。

官方数据显示,这一机制影响的对话比例低于5%。超过1000小时的外部红队测试表明,至今未发现能绕过该机制的通用越狱方法。正是这套独立于模型核心能力之外的“主动降级”系统——安全分类器、动态路由和风险识别三层联动——支撑了从“雪藏”到“公开”的合规过渡。

性能碾压:断层式领先的“任务执行者”

在性能基准测试中,Fable 5交出了一份断层式领先的成绩单。软件工程基准SWE-Bench Pro得分80.3%,远超Opus 4.8的69.2%和GPT-5.5的58.6%。长上下文记忆能力提升幅度是前代的三倍。

AI大神Andrej Karpathy评价:“模型理解了任务,然后直接执行”,并引用《黑客帝国》台词号召开发者“解放你的思想”。

实测中,Fable 5可在几分钟内构建一个可玩的3D游戏,或一次性制作2分钟的动画电影。Stripe公司利用Fable 5将5000万行Ruby代码库迁移完成,速度远超其整个工程师团队。在所有已测试的AI能力基准中,Fable 5均处于顶尖水平,且任务越复杂、耗时越长,其领先优势越显著。

防蒸馏加码:主动降质,切断数据源头

在三个高危拦截领域中,“模型蒸馏”是整套安全机制中最具战略张力的一环。

2025年2月,Anthropic公开指控三家中国AI实验室通过约2.4万个虚假账号与Claude进行超过1600万次交互,用于自身模型蒸馏。两个月后的2026年4月,OpenAI、Anthropic与Google宣布建立联合信息共享机制,共享并协同封堵大规模对抗性蒸馏行为。

如今,Anthropic从被动封堵升级到直接主动切断蒸馏质量。当Fable 5检测到API请求意在提取模型能力用于蒸馏时,系统不会当即拦截——而是动态降低模型输出的质量层级,通过提示词修改、引导向量(steering vectors)和参数高效微调(PEFT)等手段限制回复能力

训练数据质量直接决定蒸馏效果,Anthropic通过主动劣化输出质量,在蒸馏源头堵住高质量数据的供给侧。整套反蒸馏机制的运营锚点,正是Fable 5保留所有对话数据30天的审计条款——批量、高频、模式化的蒸馏请求将在30天窗口的全局审计中被精准标记。当训练数据本身被系统性降质,且异常流量模式处于持续全量审计之下时,蒸馏行为从技术和运营两个维度同时触达成本天花板。

IPO前夜,Anthropic的这套机制既是安全应对,更是商业壁垒。

Fable 5的输入输出定价分别为每百万Token 10美元和50美元,为公开模型中定价最高的一档。不直接封锁用户,而是用质量降级、连续审计和异常行为标记来完成用户教育和合规防控,在市场扩张与安全治理之间找到了一套新的商业闭环。

蒸馏防御的连锁效应

对于中国AI行业而言,蒸馏防御的连锁效应可能比模型本身的技术参数更具冲击力。

据Anthropic披露,蒸馏“学生模型”不仅可能继承教师模型的能力,也可能继承安全护栏漏洞,从而被潜在用于网络攻击、生物武器研发或大规模监控。在Anthropic、OpenAI与Google三家头部大模型公司协调共享异常流量样本、同步封堵违规账户的合作机制下,蒸馏式技术追赶路径的窗口期正在收窄。用产业资本优势对竞争对手设置运营性壁垒,使追赶方即便能获取模型输出,也无法在原有效率的成本区间内完成质量爬升。

蒸馏本身并非原罪——在合理使用场景下,它仍是AI领域的一项常规技术。然而,以千亿美元级的重资产算力网络作背书,在API服务的输出质量层面做分层次精细化管理,本身即为现有竞争格局下的差异化门槛。

原本存在于技术参数和算法工程上的差距,正在被运营成本模型和合规基础设施层层加固。对开源模型厂商和中国AI产业链而言,这种将治理成本转化为竞争壁垒的做法,要比单纯的算力禁售更难直接对冲。