火星电竞·(CHINA)官方网站正因为富余大、富余真、富余难-火星电竞·(CHINA)官方网站

你的位置：火星电竞·(CHINA)官方网站 > 新闻资讯 > 火星电竞·(CHINA)官方网站正因为富余大、富余真、富余难-火星电竞·(CHINA)官方网站

火星电竞·(CHINA)官方网站正因为富余大、富余真、富余难-火星电竞·(CHINA)官方网站

发布日期：2026-07-05 06:38 点击次数：97

这是一支来自中国、很可能就在上海的AI安全公司。

火星电竞·(CHINA)官方网站

新智元报说念

【新智元导读】太荒诞了！一个连官网都莫得的玄妙中国AI「扫地僧」，以73.1%的胜率杀入CyberGym全球前七，紧咬OpenAI。全网都在疯传，这到底是谁家的高东说念主？

这几天，在全球AI巨头拼杀正酣的一张榜单上，倏得多了一个谁都没听过的名字。

它叫MopMonk（扫地僧）。

莫得雷厉风行的发布会，莫得官博长文，莫得酬酢媒体上的逆风招展。

它就这样诬捏出世，直接杀入CyberGym全球前十。

凭借73.1%的得胜率，以狭窄差距紧咬OpenAI，一举刷新了中国团队在该榜单上的历史最高分。

整件事最玄幻的所在在于，时于本日，无东说念主清爽它的真面庞。

CyberGym这份榜，到底有多重？

MopMonk此次的获利究竟有多炸裂？望望它所站上的擂台就知说念了。

CyberGym，由UC Berkeley团队倾力打造，中枢论文中选ICLR 2026顶会。

传送门：https://arxiv.org/pdf/2506.02548

作为AI收罗安全智力评估范围最巨擘的公开基准之一，这里号称大模子的「修罗场」——

就连GPT-5.5-Cyber、Claude Mythos这种级别的顶流，都曾在这个榜单里贴身肉搏。

所有这个词基准主打「真枪实弹」：

1507个漏洞实例、188个开源大名目，所有考题一都扒自Google OSS-Fuzz千里淀下来的真实历史漏洞。

从评估维度来看，这是一个跨量级的打破。

它的体量，是此前最大公开基准（NYU CTF，约200题）的足足7.5倍，更是把CVE-Bench这种「前辈」直接甩出了一个数目级。

更要命的是难度，CyberGym不作念采用题。

它要求AI在动辄数千个文献、数百万行代码的真实名目里，完成深度推理。

正因为富余大、富余真、富余难，CyberGym才有了「分手度」——

它能把不同模子、不同Agent框架之间那点真实的智力差距，一刀一刀地切出来。

难怪安全圈，直接将其封为「AI安全范围的奥运会」。

也正因如斯，全球头部玩家险些全员到场，微软、OpenAI、Anthropic、谷歌、Meta、智谱……

CyberGym榜单自己，正在见证AI竞争的一次要津转向：

从比谁参数大，转向比谁的Agent真能把活干完。

一个生疏的东方代号

倏得出当今硅谷AI巨头中间

谁能意象，恰正是在这个最靠「硬实力」话语的擂台上，杀出了一匹「查无此东说念主」的黑马。

拨开迷雾，咱们目前掌捏的已知谍报仅有三条：

玄妙代号：MopMonk（扫地僧）

基座模子：MiniMax M3

榜单战绩：杀进CyberGym全球第七，中国第一

按常理，打出这种获利的团队，技巧论述和新闻发布会早该声势汹汹。

可在这份高东说念主云集的榜单上，MopMonk偏巧是阿谁最透彻的「异类」：只甩出一份技巧论述，团队、公司、坐标，一概查无此东说念主。

这种「实力顶配，信息裸奔」的碰撞，自己就充满了一种东方武侠式的戏剧性。

熟谙金庸的东说念主，都懂《天龙八部》中「扫地僧」这三个字的重量——

少林藏经阁里阿谁扫了几十年地、没东说念主谨记姓名的老梵衲，一开端却镇住了萧远山、慕容博两大高东说念主。

最不起眼的变装，藏着最深的功夫。

敢顶着「扫地僧」的名号踢馆，这支团队彰着对我方的实力，有着极其冷情的自信！

更要津的陈迹，覆盖在它的技巧底层——MopMonk选用的基座，是MiniMax M3。

作为一个来自上海的开源基座，M3号称六边形战士，直接集都了三大中枢杀器：前沿的编程智力、1M超长高下文，以及原生多模态。

一边是极具东方颜色的「文化标记」，另一边是打着隧说念国产标签的技巧底座。

把这两条陈迹摆上桌面，圈子依然收得很小了。所有的蛛丝马迹都在荒诞默示并吞个论断：

这大要率是一支中国战队。

赢输手，在Harness

抛开身份悬念，作为恒久跟踪AI技巧的东说念主，咱们更想搞昭彰一个问题：

MopMonk凭什么赢？

要回复这个问题，得先回到CyberGym最难的阿谁中枢——它考的根柢不是「知不知说念」，而是「作念不作念得回」。

判断一段代码有莫得漏洞，对今天的大模子来说依然不算太难。

但CyberGym要考的是下一步、亦然最要命的那一步：生成一个能触发漏洞的输入，也便是PoC。

它必须在「有漏洞的版块」上触发，在「已诞生的版块」上失效，并通过基准环境的实施考证。

这说念坎，远比想象中顽恶。

漏洞的触发条目，经常衰败地藏在代码旅途、贯通逻辑、构建环境、测试Harness和输入神气之间，得少量点拼出来。

更坑的是，哪怕PoC在土产货把规律跑崩了，也无意算数。只消不可舒适「漏洞版触发、诞生版不触发」的差分判定，照样白忙一场。

这一步，把任务从「长入」透彻拽进了「实施」。况兼是一种很特地的实施——

整场考试，是在一个禁闭、断网的环境里进行的。

莫得外部搜索不错求援，莫得任何「场外资源」，AI能依靠的，惟一双咫尺这套代码库的长入，和它我方一步步攒下来的操心。

要在这种条目下把漏洞「复现」出来，靠的是一整套丝丝入扣的智力：

用具调用狡计：什么时候该读文献、什么时候该跑测试、什么时候该回头改决策；

多轮推理：上一次没触发，问题到底出在哪，下一次该怎么养息；

操心处理：把读过的代码、试过的输入、踩过的坑结构化地存下来，而不是每一轮都从零再读一遍；

迭代考证：一遍遍面对阿谁临界点，直到漏洞果真被复现。

换句话说，CyberGym较量的中枢，是Agent的「行能源」，模子的「智力」仅仅入场券。

而把「机灵」形成「行能源」的阿谁要津武艺，便是今天所有这个词Agent范围最被低估的一个词——Harness。

Harness，是模子与外部用具、实施环境之间的「合作层」。

它负责用具编排、高下文情状处理、实施响应的回收与再投喂。

简便来说，模子是大脑，负责念念考「漏洞可能在哪、下一步该怎么挖」。

Harness是四肢加神经系统，负责把大脑的想法形成一连串真实动作——

掀开哪个文献、跑哪条敕令、拿到报错后怎么养息、上一轮失败了下一轮怎么改。

在CyberGym这种要跑几十上百轮、要在百万行代码里反复试错的任务上，Harness的横暴，直接决定了模子的智力能不可改变成战役力。

一个机灵的模子 + 一个普通的Harness，限度经常是「想得回、作念不到」；

一个智力塌实的模子 + 一个为漏洞挖掘量身打造的强Harness，才可能在这种长程任务上跑出获利。

为漏洞挖掘「量身定制」的Agent

如今，透过GitHub技巧论述，MopMonk的技巧端倪，果决了了：

一款专为漏洞挖掘全新遐想的安全多Agent系统，而扶植其运转的念念维基座，正是MiniMax M3。

GitHub地址：https://github.com/MopMonkAI/MopMonkAgent

如前所述，M3是当下生僻的、能将顶尖编码智力、百万token高下文与原生多模态集于单一架构的开源模子。

看一眼跑分就能倡导：SWE-Bench Pro斩获59.0%、Terminal-Bench 2.1达到66.0%、MCP Atlas拿下 74.2%——

这些亮眼的数据，精确踩中了Agent落地实战时，最硬核的智力刚需。

不仅如斯，它还能在长达十几个小时的任务里自主迭代、自我纠错。

换言之，M3上演了一颗兼具顶尖代码贯通力、超长操心力与熟练用具调用智力的「最纷乱脑」。

关于CyberGym这种动辄要吞下所有这个词代码库、跑上几十轮的任务，1M的高下文窗口险些是刚需。

而MopMonk这套安全Agent框架作念的事，是把M3这颗大脑的智力，放大成漏洞挖掘的实施力。

它的「内功心法」，从GitHub公开的技巧细节来看，中枢是三招——

第一招，结构化的「漏洞操心」。

它不是简便堆叠聊天记载，也不是把超长高下文一股脑塞给模子，而是把一份可不息更新的「任务事实操心」，围绕漏洞挖掘里最要津的几类对象组织起来：

漏洞指标、代码旅途、输入神气、候选PoC、失败根据、考证情状，以及「下一步护士」操心。

临了一类尤其见功力：它不生成清贫的详尽狡计，而是直接从面前根据里，提取出下一次推行必须舒适的硬护士。

比如，「此次必须覆盖到阿谁分支」「该养息哪个字段」「要摈斥哪一类失败原因」。

这种操心遐想，将漏洞挖掘从「反复从零试错」形成了「基于根据的敛迹经由」。

每一次读代码、每一次实施限度、每一次失败提交，都被改变成下一步生成PoC可复用的护士。

第二招，操心驱动的「漏洞挖掘」。

在漏洞挖掘任务中，系统治先通过扫描代码库，并将候选触发旅途和目次信息作为狡计的开端，来开动化漏洞操心。

然后，它一步步推动，试图敛迹到触发崩溃的具体代码位置。

之后，每一次探索尝试都会读取面前操心，测试一个具体的假定，并将限度写回操心中。

这样一来，模子无谓每一轮都从新重读所有这个词任务，而是从这份结构化操心里，精确调出当下最关联的那一小块根据——

既大幅裁汰了长高下文的背负，又让候选PoC的每一次变异，都能接管此前积聚的代码旅途与输入神气常识，让搜索越收越准。

在严格的探索预算内，时刻于是被尽可能地花在「新假定」上，有用测验密度直线拉升。

第三招，分享操心下的「多Agent并行探索」。

多个探索尝试，分享并吞份漏洞操心，不错从补丁陈迹、harness进口、文献神气字段、sanitizer类型、范围条目等多个宗旨同期推动，并彼此接管失败申饬与考证限度。

这既扩大了覆盖面，又幸免了疏通无效的探索。

由此看出，MopMonk把漏洞复现，从一场绽开式的反复试错，硬生生重写成了一个「可积聚、可护士、可考证」的操心更新经由。

三招合一，全凭在职务里面少量点千里淀、提取、复用出来的「内功」，硬生生把一颗纷乱的开源基座，调换成了漏洞挖掘战场上的特战标兵。

最终，它跑出了73.1%的得胜率。

基座负责「想得深」，Harness负责「谨记牢、调得准、打得稳」。

两者深度耦合，才最终铸就了榜单上阿谁令东说念主留神的破局获利。

一个比「堆参数」更有价值的判断

这件事真实的启发在于——

往时几年，行业的惯性是「堆参数」：参数越大、模子越强、榜单越高。

但CyberGym这种真实攻防任务给出了另一种谜底：决定赢输的，越来越是Agent的实施智力，是Harness这层工程的厚度。

根据GitHub技巧论述，这套款式的价值落在三点上：

纷乱的基模智力，提供了搜索的基础；

结构化的漏洞操心，提供了敛迹的机制；

分享操心的多智能体探索，在有限预算里提高了老本后果。

基座决定了智力的上限，而这套操心中心的Harness，决定了这份智力到底能实现若干。

更要命的是它的复利属性：

模子基座会一代代换，今天用M3，未来可能用更新的开源模子。

但一套被真实战场反复打磨、千里淀了攻防申饬的Harness，是不错跳跃基座迭代、不息复利的钞票。

简而言之，MopMonk Harness的恒久价值，可能比「再堆一倍参数」更大。

这正是业内动手追究注视，这个玄妙「扫地僧」的根柢原因：

大家想看的，不仅仅它打了若干分，而是它示范了一条把开源基座作念到极致的路。

是以，「扫地僧」到底是谁？

绕了一圈，咱们如故回到了阿谁最动手、也最让东说念主抓心挠肝的问题。

MopMonk，到底是谁？！

把陈迹拼起来：东方武侠味拉满的代号 + 上海公司的MiniMax基座 + 零丁安全范围的「内功」。

险些所有箭头，都指向并吞个判断：这是一支来自中国、很可能就在上海的AI安全公司。

也有东说念主顺着基模与Agent双向适配的角度，盲猜其背后与AI大模子原生团队脱不开关系。

各式版块的猜想在坊间疯传，但于今无东说念主能甩出实锤。

你以为火星电竞·(CHINA)官方网站，MopMonk会是谁家的高东说念主？考虑区，等你来爆料。

上一篇：火星电竞·(CHINA)官方网站举报第一财经告白互助-火星电竞·(CHINA)官方网站
下一篇：没有了

相关资讯

热点资讯

友情链接：