火星电竞·(CHINA)官方网站-火星电竞·(CHINA)官方网站正因为富余大、富余真、富余难-火星电竞·(CHINA)官方网站

火星电竞·(CHINA)官方网站正因为富余大、富余真、富余难-火星电竞·(CHINA)官方网站

发布日期:2026-07-05 06:38  点击次数:97

火星电竞·(CHINA)官方网站正因为富余大、富余真、富余难-火星电竞·(CHINA)官方网站

这是一支来自中国、很可能就在上海的AI安全公司。

火星电竞·(CHINA)官方网站

新智元报说念

【新智元导读】太荒诞了!一个连官网都莫得的玄妙中国AI「扫地僧」,以73.1%的胜率杀入CyberGym全球前七,紧咬OpenAI。全网都在疯传,这到底是谁家的高东说念主?

这几天,在全球AI巨头拼杀正酣的一张榜单上,倏得多了一个谁都没听过的名字。

它叫MopMonk(扫地僧)。

莫得雷厉风行的发布会,莫得官博长文,莫得酬酢媒体上的逆风招展。

它就这样诬捏出世,直接杀入CyberGym全球前十。

凭借73.1%的得胜率,以狭窄差距紧咬OpenAI,一举刷新了中国团队在该榜单上的历史最高分。

整件事最玄幻的所在在于,时于本日,无东说念主清爽它的真面庞。

CyberGym这份榜,到底有多重?

MopMonk此次的获利究竟有多炸裂?望望它所站上的擂台就知说念了。

CyberGym,由UC Berkeley团队倾力打造,中枢论文中选ICLR 2026顶会。

传送门:https://arxiv.org/pdf/2506.02548

作为AI收罗安全智力评估范围最巨擘的公开基准之一,这里号称大模子的「修罗场」——

就连GPT-5.5-Cyber、Claude Mythos这种级别的顶流,都曾在这个榜单里贴身肉搏。

所有这个词基准主打「真枪实弹」:

1507个漏洞实例、188个开源大名目,所有考题一都扒自Google OSS-Fuzz千里淀下来的真实历史漏洞。

从评估维度来看,这是一个跨量级的打破。

它的体量,是此前最大公开基准(NYU CTF,约200题)的足足7.5倍,更是把CVE-Bench这种「前辈」直接甩出了一个数目级。

更要命的是难度,CyberGym不作念采用题。

它要求AI在动辄数千个文献、数百万行代码的真实名目里,完成深度推理。

正因为富余大、富余真、富余难,CyberGym才有了「分手度」——

它能把不同模子、不同Agent框架之间那点真实的智力差距,一刀一刀地切出来。

难怪安全圈,直接将其封为「AI安全范围的奥运会」。

也正因如斯,全球头部玩家险些全员到场,微软、OpenAI、Anthropic、谷歌、Meta、智谱……

CyberGym榜单自己,正在见证AI竞争的一次要津转向:

从比谁参数大,转向比谁的Agent真能把活干完。

一个生疏的东方代号

倏得出当今硅谷AI巨头中间

谁能意象,恰正是在这个最靠「硬实力」话语的擂台上,杀出了一匹「查无此东说念主」的黑马。

拨开迷雾,咱们目前掌捏的已知谍报仅有三条:

玄妙代号:MopMonk(扫地僧)

基座模子:MiniMax M3

榜单战绩:杀进CyberGym全球第七,中国第一

按常理,打出这种获利的团队,技巧论述和新闻发布会早该声势汹汹。

可在这份高东说念主云集的榜单上,MopMonk偏巧是阿谁最透彻的「异类」:只甩出一份技巧论述,团队、公司、坐标,一概查无此东说念主。

这种「实力顶配,信息裸奔」的碰撞,自己就充满了一种东方武侠式的戏剧性。

熟谙金庸的东说念主,都懂《天龙八部》中「扫地僧」这三个字的重量——

少林藏经阁里阿谁扫了几十年地、没东说念主谨记姓名的老梵衲,一开端却镇住了萧远山、慕容博两大高东说念主。

最不起眼的变装,藏着最深的功夫。

敢顶着「扫地僧」的名号踢馆,这支团队彰着对我方的实力,有着极其冷情的自信!

更要津的陈迹,覆盖在它的技巧底层——MopMonk选用的基座,是MiniMax M3。

作为一个来自上海的开源基座,M3号称六边形战士,直接集都了三大中枢杀器:前沿的编程智力、1M超长高下文,以及原生多模态。

一边是极具东方颜色的「文化标记」,另一边是打着隧说念国产标签的技巧底座。

把这两条陈迹摆上桌面,圈子依然收得很小了。所有的蛛丝马迹都在荒诞默示并吞个论断:

这大要率是一支中国战队。

赢输手,在Harness

抛开身份悬念,作为恒久跟踪AI技巧的东说念主,咱们更想搞昭彰一个问题:

MopMonk凭什么赢?

要回复这个问题,得先回到CyberGym最难的阿谁中枢——它考的根柢不是「知不知说念」,而是「作念不作念得回」。

判断一段代码有莫得漏洞,对今天的大模子来说依然不算太难。

但CyberGym要考的是下一步、亦然最要命的那一步:生成一个能触发漏洞的输入,也便是PoC。

它必须在「有漏洞的版块」上触发,在「已诞生的版块」上失效,并通过基准环境的实施考证。

这说念坎,远比想象中顽恶。

漏洞的触发条目,经常衰败地藏在代码旅途、贯通逻辑、构建环境、测试Harness和输入神气之间,得少量点拼出来。

更坑的是,哪怕PoC在土产货把规律跑崩了,也无意算数。只消不可舒适「漏洞版触发、诞生版不触发」的差分判定,照样白忙一场。

这一步,把任务从「长入」透彻拽进了「实施」。况兼是一种很特地的实施——

整场考试,是在一个禁闭、断网的环境里进行的。

莫得外部搜索不错求援,莫得任何「场外资源」,AI能依靠的,惟一双咫尺这套代码库的长入,和它我方一步步攒下来的操心。

要在这种条目下把漏洞「复现」出来,靠的是一整套丝丝入扣的智力:

用具调用狡计:什么时候该读文献、什么时候该跑测试、什么时候该回头改决策;

多轮推理:上一次没触发,问题到底出在哪,下一次该怎么养息;

操心处理:把读过的代码、试过的输入、踩过的坑结构化地存下来,而不是每一轮都从零再读一遍;

迭代考证:一遍遍面对阿谁临界点,直到漏洞果真被复现。

换句话说,CyberGym较量的中枢,是Agent的「行能源」,模子的「智力」仅仅入场券。

而把「机灵」形成「行能源」的阿谁要津武艺,便是今天所有这个词Agent范围最被低估的一个词——Harness。

Harness,是模子与外部用具、实施环境之间的「合作层」。

它负责用具编排、高下文情状处理、实施响应的回收与再投喂。

简便来说,模子是大脑,负责念念考「漏洞可能在哪、下一步该怎么挖」。

Harness是四肢加神经系统,负责把大脑的想法形成一连串真实动作——

掀开哪个文献、跑哪条敕令、拿到报错后怎么养息、上一轮失败了下一轮怎么改。

在CyberGym这种要跑几十上百轮、要在百万行代码里反复试错的任务上,Harness的横暴,直接决定了模子的智力能不可改变成战役力。

一个机灵的模子 + 一个普通的Harness,限度经常是「想得回、作念不到」;

一个智力塌实的模子 + 一个为漏洞挖掘量身打造的强Harness,才可能在这种长程任务上跑出获利。

为漏洞挖掘「量身定制」的Agent

如今,透过GitHub技巧论述,MopMonk的技巧端倪,果决了了:

一款专为漏洞挖掘全新遐想的安全多Agent系统,而扶植其运转的念念维基座,正是MiniMax M3。

GitHub地址:https://github.com/MopMonkAI/MopMonkAgent

如前所述,M3是当下生僻的、能将顶尖编码智力、百万token高下文与原生多模态集于单一架构的开源模子。

看一眼跑分就能倡导:SWE-Bench Pro斩获59.0%、Terminal-Bench 2.1达到66.0%、MCP Atlas拿下 74.2%——

这些亮眼的数据,精确踩中了Agent落地实战时,最硬核的智力刚需。

不仅如斯,它还能在长达十几个小时的任务里自主迭代、自我纠错。

换言之,M3上演了一颗兼具顶尖代码贯通力、超长操心力与熟练用具调用智力的「最纷乱脑」。

关于CyberGym这种动辄要吞下所有这个词代码库、跑上几十轮的任务,1M的高下文窗口险些是刚需。

而MopMonk这套安全Agent框架作念的事,是把M3这颗大脑的智力,放大成漏洞挖掘的实施力。

它的「内功心法」,从GitHub公开的技巧细节来看,中枢是三招——

第一招,结构化的「漏洞操心」。

它不是简便堆叠聊天记载,也不是把超长高下文一股脑塞给模子,而是把一份可不息更新的「任务事实操心」,围绕漏洞挖掘里最要津的几类对象组织起来:

漏洞指标、代码旅途、输入神气、候选PoC、失败根据、考证情状,以及「下一步护士」操心。

临了一类尤其见功力:它不生成清贫的详尽狡计,而是直接从面前根据里,提取出下一次推行必须舒适的硬护士。

比如,「此次必须覆盖到阿谁分支」「该养息哪个字段」「要摈斥哪一类失败原因」。

这种操心遐想,将漏洞挖掘从「反复从零试错」形成了「基于根据的敛迹经由」。

每一次读代码、每一次实施限度、每一次失败提交,都被改变成下一步生成PoC可复用的护士。

第二招,操心驱动的「漏洞挖掘」。

在漏洞挖掘任务中,系统治先通过扫描代码库,并将候选触发旅途和目次信息作为狡计的开端,来开动化漏洞操心。

然后,它一步步推动,试图敛迹到触发崩溃的具体代码位置。

之后,每一次探索尝试都会读取面前操心,测试一个具体的假定,并将限度写回操心中。

这样一来,模子无谓每一轮都从新重读所有这个词任务,而是从这份结构化操心里,精确调出当下最关联的那一小块根据——

既大幅裁汰了长高下文的背负,又让候选PoC的每一次变异,都能接管此前积聚的代码旅途与输入神气常识,让搜索越收越准。

在严格的探索预算内,时刻于是被尽可能地花在「新假定」上,有用测验密度直线拉升。

第三招,分享操心下的「多Agent并行探索」。

多个探索尝试,分享并吞份漏洞操心,不错从补丁陈迹、harness进口、文献神气字段、sanitizer类型、范围条目等多个宗旨同期推动,并彼此接管失败申饬与考证限度。

这既扩大了覆盖面,又幸免了疏通无效的探索。

由此看出,MopMonk把漏洞复现,从一场绽开式的反复试错,硬生生重写成了一个「可积聚、可护士、可考证」的操心更新经由。

三招合一,全凭在职务里面少量点千里淀、提取、复用出来的「内功」,硬生生把一颗纷乱的开源基座,调换成了漏洞挖掘战场上的特战标兵。

最终,它跑出了73.1%的得胜率。

基座负责「想得深」,Harness负责「谨记牢、调得准、打得稳」。

两者深度耦合,才最终铸就了榜单上阿谁令东说念主留神的破局获利。

一个比「堆参数」更有价值的判断

这件事真实的启发在于——

往时几年,行业的惯性是「堆参数」:参数越大、模子越强、榜单越高。

但CyberGym这种真实攻防任务给出了另一种谜底:决定赢输的,越来越是Agent的实施智力,是Harness这层工程的厚度。

根据GitHub技巧论述,这套款式的价值落在三点上:

纷乱的基模智力,提供了搜索的基础;

结构化的漏洞操心,提供了敛迹的机制;

分享操心的多智能体探索,在有限预算里提高了老本后果。

基座决定了智力的上限,而这套操心中心的Harness,决定了这份智力到底能实现若干。

更要命的是它的复利属性:

模子基座会一代代换,今天用M3,未来可能用更新的开源模子。

但一套被真实战场反复打磨、千里淀了攻防申饬的Harness,是不错跳跃基座迭代、不息复利的钞票。

简而言之,MopMonk Harness的恒久价值,可能比「再堆一倍参数」更大。

这正是业内动手追究注视,这个玄妙「扫地僧」的根柢原因:

大家想看的,不仅仅它打了若干分,而是它示范了一条把开源基座作念到极致的路。

是以,「扫地僧」到底是谁?

绕了一圈,咱们如故回到了阿谁最动手、也最让东说念主抓心挠肝的问题。

MopMonk,到底是谁?!

把陈迹拼起来:东方武侠味拉满的代号 + 上海公司的MiniMax基座 + 零丁安全范围的「内功」。

险些所有箭头,都指向并吞个判断:这是一支来自中国、很可能就在上海的AI安全公司。

也有东说念主顺着基模与Agent双向适配的角度,盲猜其背后与AI大模子原生团队脱不开关系。

各式版块的猜想在坊间疯传,但于今无东说念主能甩出实锤。

你以为火星电竞·(CHINA)官方网站,MopMonk会是谁家的高东说念主?考虑区,等你来爆料。



相关资讯
热点资讯
  • 友情链接:

Powered by 火星电竞·(CHINA)官方网站 @2013-2022 RSS地图 HTML地图