

最强 AI 突遭封杀下架,多模型协作能否填补空白?
作者丨高允毅
编辑丨马晓宁
当世界上最聪明的 AI 被强制拔掉网线,我们能否有另一套方案,用上同样聪明的智力?
2026年6月14日,全球最大的大模型 API 聚合平台OpenRouter,在 X 上发布一条推文,短短几天,吸引近600万人围观。

该平台宣布推出了世界上最聪明的“复合模型”Fusion API ,能用模型组合的方式,复刻 Claude Fable 5 的智力水平。 所谓“复合模型”,不是靠一个 AI 自己埋头苦干,而是让好多 AI 模型一块儿配合,做出一份最好的答案,再交给用户,对外统一用一个API 入口。
Fusion API 的横空出世,踩中了一个微妙的时机。 就在同一周,Anthropic 刚发布了 史上最强模型Claude Fable 5。该模型以强悍的长周期智能体推理出圈,能将企业原本需要数月的代码迁移工作缩短至一天。
然而,发布仅 3 天,美国政府便签发了紧急出口管制令。Anthropic 官方被迫切断全球网络,暂停该模型的 API 访问,原本跃跃欲试的开发者们,瞬间哀嚎遍野。
OpenRouter这条推文,正是精准地踩在了市场真空期的最痛点,同时给出一套新方案:与其押注单一模型,不如让一群模型\"开会\"。
它公布了一组惊人数据:在深度研究中,由 Gemini 3 Flash、Kimi K2.6 和 DeepSeek V4 Pro 组成的“模型专家团”,融合后不仅轻松击败了 Opus 4.8,其综合智力与被禁的 Fable 5 相比,得分误差不到 1%。(注:Claude Fable 5 因内容过滤仅完成 DRACO 100 道任务中的 93 道,中端模型组合完整跑完全部 100 题,二者评测样本存在差异。)
而实现这一切的调用成本,仅仅是 Fable 5 的一半。
01
Fusion API背后的“多模型拼盘”
OpenRouter 将 Fusion 冠以“市场上最智能复合模型”的称号,确实带有营销色彩。
从底层来看,它的原理是将“多模型并行、裁判海选、终审合成”三步走流程化、标准化的工程解法。
第一步:专家团模型的“头脑风暴” 首先,用户的提示词一经触发,系统会将其同时派发给最多8 个“专家模型”,包括Fable 5、GPT-5.5、Gemini 3.1 Pro以及国产好评的GLM-5.2、Kimi K2.6等众多模型。 值得注意的是,为了防止模型“闭门造车”,系统在底层为所有专家统一配备了实时联网搜索与网页内容抓取工具。这意味着,专家模型们在交卷前,可以查阅全网最新的参考资料。这种实时交互,让 Fusion 彻底区别于简单的“少数服从多数”的盲目投票。
第二步:裁判模型来挑刺 这是 Fusion 的灵魂所在。一个被指定当“裁判”的模型,会把所有专家的回答看一遍,然后写出一份细致的分析报告。它会特别严格地把这些回答里的意见一致的地方、 互相矛盾的地方、特别出彩的个人见解,还有大家都没注意到的盲点,一条条都揪出来。
第三步:主笔模型最后定稿 裁判的报告出来之后, 一个主笔模型就上场了。它会吸收所有专家的优点,排除掉个别模型瞎编的东西,最后产出一份没有技术矛盾、逻辑顺畅的高质量回答。
在这里,OpenRouter 展现了一个很聪明的工程设计:为了避免多次调用导致系统延迟全面崩塌,它巧妙地让“裁判”与“主笔”两件事,放在同一个超级大模型的一次思考里一口气完成。那些复杂的开会、辩论、审计、整合,全都在后台悄悄做完了,用户最终只是一个干干净净的结果。
Fusion的这套思路,其实在学术界早有探索。2024年,Together AI 团队正式提出的一种多模型协同技术范式,又称MoA。
它的核心逻辑是“三个臭皮匠,顶个诸葛亮”,不再死磕一个超级贵、超级大的单个模型,而是分好几层,让一组便宜些的模型同时想,再让一个高级模型当评委,最后出来的答案,反而比任何单个模型都强。 在 MoA 正式提出之前,学界长期争论一个猜想:把好多比较弱的模型凑在一起,
能不能出现比最强模型还好的集体智慧? 于是就有了这种让 AI 组团辩论的方法。
从很早将工具与模型缝合的复合 AI 系统,到 2023 年把多个模型的输出直接糅合的工具,再到 2024 年谷歌让多个智能体像开会一样辩论的论文,学术界早已论证了同一件事:组合拳的输出远比单打独斗更具确定性。
Fusion 的核心价值在于它是行业首个将完整 “多模型合议” 流程标准化、托管化、开箱即用的商用 API 产品。 它把一整套复杂架构变成了一项可以托管的、即插即用的 API,无需任何基础设施。开发者不用自己再去搭服务器、调参数。只要改一行代码,就能直接指挥一整个专家团。
在真正落地的过程里,OpenRouter 表现得很务实,主要体现在两个机制上:
第一,给用户完全透明的控制权:你可以自己决定让哪些模型当评审,让哪个模型当最后的主裁判。如果国外的服务不好用,你还能让咱们的国产大模型挑大梁。甚至可以给不同模型分配重要程度,让整个合作网完全听你指挥。
第二,极具灵巧性的“动态智能门控”:这个功能像一个工具箱里的小插件。平时问点简单的问题,系统会自动识别,直接让一个便宜的模型秒回,根本不启动复杂的开会流程。只有碰到特别难、需要深思熟虑的问题时,才会把一群模型叫起来,一起商量。
02
在DRACO基准测试中的“聪明”表现
Fusion这套“组队干活”的聪明效果,在 Perplexity AI 发布的权威深度研究基准测试 DRACO 中得到了直接印证。
作为一个专门测试 AI 深度研究能力的硬核考场,DRACO 包含了法律、金融、医学等 10 个领域的 100 道复杂任务。
它的规则极其严苛,采用“负分淘汰制”,每道题约有39 个判定标准进行全方位“挑刺”,回答错误或硬凑字数,都会被扣分。为了防止运气成分,每个回答要找三个不同的裁判,各看一次,最后取一个稳定的平均分。

在DRACO的真实评测中,可以看到一些有趣的信息:
总榜排在最前列的几乎清一色是“组合模型”,其实际效果把排在后方的单体模型远远甩在了身后
“自己和自己组队”也能变强:利用 Fusion 机制,即便是相同的模型融合,也能实现超越前沿的性能。比如两个Claude Opus 4.8 互相融合,其最终的得分不仅远超自己,甚至直接超越了Fable 5。
最有趣的是,哪怕不用昂贵的顶级模型,用中端模型组队同样能逼近天花板。由 Gemini 3 Flash、Kimi K2.6 和 DeepSeek V4 Pro 组成的“平民专家队”,在经过 Fusion组合后,以不到 1% 的微弱得分差距,正面直逼 Fable 5。 当然,最强的模型组合依然来自最强模型的强强联手,Fable 5+GPT-5.5霸榜第一。

但需要注意的是,DRACO只考察“纯文字、纯英文”的深度研究能力,不包含长周期动态任务、代码运行、多模态与非英文场景。这种固定的测评体系,无法考察将来实际用起来是什么样;而且分数多少,也跟找谁来当裁判有很大关系,不同的评委大模型,绝对分数会产生 10 到 25 分的巨大波动,但相对系统排名保持稳定。
简而言之,Fusion的绝对优势,主要在研究复杂问题,把很多信息揉在一起, 写出一份的高质量深度报告这件事上。
03
最吸引人的经济账:真的只要一半吗?
Fusion最受人们关注的是莫过于那句口号:只用一半的价格,达到Fable 5的智力效果。
众所周知,Claude Fable 5 的价格堪称昂贵,其输入每百万 Token 为 10 美元,输出每百万 Token 达 50 美元。这一价格正好是前代旗舰 Claude Opus 4.8 的两倍,也是目前市场上最昂贵的前沿大模型之一。
如果真的能省下一半成本,开发者们自然趋之若鹜。但 Fusion 这笔账到底是怎么算的?
Fusion 的收费规则是“你调用了几个模型就得付几个模型的钱。”,这意味着一条提示词如果被路由分配到 4 个模型,用户就要付 4 次钱。这让很多开发者直呼“太贵了”。
那为什么它最终还能省钱?秘密在于 Token 价格的极端不对称性:大模型的输入成本通常极其廉价,而长篇大论的输出成本却极其高昂。
Fusion 省钱的本质,就是“多花好几份极便宜的输入费”,去避开那个“最贵最贵的输出费”。
以4个模型为例,虽然4 个模型的输入都需要付钱,但只付了 4 次很便宜的输入费,但最终答案,只有一个模型输出。所以真正花大钱的地方,只有一份。
如果配合前文提到的“动态智能门控”,这笔账还会更划算。
当公司大规模跑业务的时候,90% 的简单问题,可以自动分给便宜又好用的模型了。 只有那 10% 超级难的、触及能力上限的问题,才会启动 Fusion 开会。这样算下来,整体成本可能比“全部用昂贵模型”还要低。
而真正让 OpenRouter 敢喊出“成本减半”的终极底气,来自于它有一个功能叫“提示词缓存”。
当你要处理的文本特别长,或者系统指令里有一大段固定不变的东西,哪怕输入再便宜,一旦要让 4 个甚至 8 个模型都看一遍,总价还是很吓人的。
但 Fusion 聪明就聪明在,多个专家模型可以同时用同一份缓存好的数据。除了第一次要付全价,后面再读同样的东西,就只要付一顿几乎可以忽略的零头,大概只有原价的 10% 到 20%。
如果没有提示词缓存这项技术托底,多模型辩论就只是一个“开着豪车送外卖”的工程乌托邦。
把账算清楚之后,企业做技术的人就能清楚知道Fusion的使用边界,什么场景能省钱,什么场景会破产?
当你遇到了一个超级难题,单凭任何一个模型都搞不定,你原本只能咬牙花大价钱用最牛的那个。现在你用 4 个中等模型组队,加上缓存,总账单确实能比天价模型便宜一大截。
反而会更贵的场景是:如果你的日常工作,本来一个便宜模型就能轻松搞定,你却非要逼着大家组队上,那多模型并行带来的太多额外花费,很快就能把公司账目搞崩。
简而言之,Fusion 是一场精准的账目精算。它是最牛模型非常好的平价替代,但绝对不是普通便宜模型的平价替代。
过去,科技公司靠不断堆出一个超级贵、超级大的单模型来垄断挣钱。 但现在,这种垄断,正在被“便宜模型组合”、“聪明开关”加上“缓存优化”,这一套组合拳给打破了。
Fusion给了我们一个选择空间,在 AI 这个赛道下半场,你不需要买那个最贵的单模型了,一套足够聪明的调度系统也可以成为平替方案。
04
三个没那么光鲜的工程黑洞
尽管概念惊艳,但目前 Fusion 依然无法直接替代 Fable 5。
作为一个尚处早期探索阶段的产物,在开发者和企业最在意的真实落地战场上,它暴露出三个不容忽视的致命短板。
▎问题一:编程场景不实用
官方明确指出,Fusion并非编码模型的直接替代品,它更像一个带着搜索和运行环境的“高级智囊团”。 这决定了它在编程场景应用中的明显分化。在应对复杂架构设计、技术选型或百年不遇的报错原因时,它能发挥多方求证的优势;但在开发者日常写代码的主战场,它反而比普通模型难用得多。核心原因有三:
(1)写代码要快,它太慢了:因为Fusion底下是好几个模型在协作,反应速度根本跟不上你在编辑器里敲代码的节奏,像代码补全、修语法这种要秒回的活儿,它干不了。
(2)处理大工程容易“断片”:在面对超长上下文或“整个仓库重构”级别的任务时,Fusion 那种把任务切给好几个模型的做法,很容易让上下文断掉,目前无法像 Fable 5 那样完美保持 200k+ token 的长程连贯性。
(3)拼出来的代码可能根本跑不起来:有深度用户反馈,它的裁判模型只负责在意思上“开会总结”,没有真正的编译器去当场验证。这导致它有时候会犯很低级的工程错误,把不同语言、甚至逻辑互相打架的代码片段硬缝在一起,结果代码一跑就崩。
▎问题二:非常慢
由于 Fusion要同时叫好几个不同的模型一起干活,所以它的反应速度特别慢,通常耗时是单一普通模型的 2 到 4 倍。
这就像一群人一起做一件事,必须等最磨蹭的那个人干完,大家才能往下走。
系统必须等所有模型全跑完,整个链条的总时间,就直接卡在后台反应最慢、网络最卡的那个模型身上。更花时间的是,等所有模型都交卷了,后台还得让裁判模型把所有结果处理一遍,才能生成最终答案。
在今天这个连“首字延迟”都要按毫秒抠的实际工作场景中,这种慢可以说是致命的,这也注定了它没法用在实时客服聊天,或者代码即时补全这种要速度的战场上。
▎问题三:数据合规的黑箱
这是企业系统落地时最难规避的合规死穴。当开发者向 Fusion 发起请求,意味着同一个提示词和上下文,在同一秒内经过了全球多家不同的 AI 服务商的服务器。
面对严苛的数据隐私法规,企业的法务和网络安全团队必须评估多路分发带来的隐患:这些服务商会如何留存数据?OpenRouter 作为中间路由层,又能否提供有效的技术担保?这个问题的答案目前依然是不透明的。
05
多模型协作时代全面到来了吗?
在 Fusion 身上,有人看到了“多模型协作(MoA)”的强势崛起,也有人嘲笑这是 AI 发展从“炼丹求道”向“缝缝补补的软件工程”的倒退。
过去两年,整个行业陷入了对“万亿参数单体战神”的盲目崇拜中,坚信只要算力足够大,就能大力出奇迹。但随着算力边际效应的递减,Fusion 用一套精巧的拼盘方案证明了:系统的整体能力,完全可以大于单体之和。
这套逻辑,正在从三个维度重塑整个 AI 行业的底层逻辑:
▎1.商业权力的重构:打破“超级模型”的定价霸权
长期以来,像 Anthropic 或 OpenAI 这样的头部玩家,试图通过单体模型的能力碾压,建立起极高的定价护城河。
但 Fusion 的出现,是对这种商业模式的降维打击。一旦“一个 Opus + 三个中等模型”能打平 Fable 5,大模型能力的“商品化”时代就真正到来了。
底层模型将变得像云服务器里的 CPU 算力一样,不再具有不可替代的神秘光环。
这不仅会逼着前沿大模型重新想想自己是不是卖太贵了,甚至得降价,还会催生出像 OpenRouter 这样,手里握着“流量分发权”的超级路由平台。
在未来,谁掌握了调度系统,谁就掌握了 AI 时代的“终极入口”。
▎2.地缘政治风险让\"多模型依赖\"从可选变成必需。
Fable 5 发布仅三天就被紧急拔掉网线,给全球开发者上了一堂极其生动的一课:将全部业务核心押注在单一大模型上的风险,比很多开发者以为的要高。
Fusion 这类\"拼盘\"方案,在合规意义上也是一种风险对冲。
这也是国产大模型的绝佳窗口期。Fable 5 被封后,智谱迅速宣布 GLM-5.2 全量开放,并喊出“前沿智能不该被少数规则随时收回”。而 DeepSeek V4 Pro 等高性价比模型在 DRACO 测试中的惊艳表现,让市场意识到:
国产模型不需要在所有指标上死磕第一,只要能在 MoA 的“专家库”里占据一席之地,成为那 90% 高性价比流量的承接者,就已经是一场巨大的商业胜利。
▎3.技术演进的新瓶颈:得“主裁判”者得天下
当然,多模型协作绝非完美的乌托邦。当下限被一群廉价专家模型拉高时,整个系统的智力上限,死死卡在了“裁判模型”的瓶颈上。
裁判模型的综合评审能力、消除幻觉的能力以及对抗偏见的能力,决定了最终输出是“博采众长”还是“一地鸡毛”。如果裁判本身存在盲点,多模型协作反而会放大错误。
回望 Fusion API 爆火的这几天,它像是一个行业清醒剂。
\"桌上还有很多盏小灯,把它们摆对位置,照样能照亮前路。\"对于当下的企业和开发者而言,Fusion 值不值得用?答案已经写在了它的架构基因里。
https://x.com/OpenRouter/status/2065856853989270011
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
辉煌优配开户提示:文章来自网络,不代表本站观点。