您的当前位置:首页 > 财经宏观 > 百度搭子DuMate一天连登PinchBench与DeepResearch双榜首 成全球最能打的龙虾 正文
时间:2026-06-12 05:00:24 来源:网络整理 编辑:财经宏观
荆楚网湖北日报网)讯通讯员 杜轩)5月8日凌晨,百度搭子DuMate登顶智能体评测基准PinchBench榜首,并在前5位中占据3席,超越Anthropic和OpenAI拿下全球龙虾执行争霸赛冠军。在 东丰最新的消息新闻网
荆楚网(湖北日报网)讯(通讯员 杜轩)5月8日凌晨,百度百度搭子DuMate登顶智能体评测基准PinchBench榜首,搭D打并在前5位中占据3席,连登龙虾东丰最新的消息新闻网超越Anthropic和OpenAI拿下全球龙虾执行争霸赛冠军。双榜首成在另外一项DeepResearch深度研究榜单中,全球DuMate同样位列第一。百度
PinchBench是搭D打OpenClaw赛道最能体现Agent真实工作能力的评测基准,重点考察Agent在23个真实工作场景下147个任务的连登龙虾多步推理、工具调用和任务闭环能力,双榜首成并从成功率、全球速度、百度东丰最新的消息新闻网成本三个维度综合排名。搭D打榜单显示,连登龙虾DuMate以93.3%和93.2%的双榜首成总成绩包揽前两名。作为对照,全球Anthropic和OpenAI的同款模型场景下的成绩分别为89.0%和91.6%。这意味着,同一模型在DuMate框架中,展现出更强的执行力。

百度搭子DuMate登顶智能体评测基准PinchBench榜首。通讯员供图
超越原生表现的技术基础,是DuMate的端云协同Harness架构。该系统在任务到达时进行意图识别和敏感度判断,隐私相关操作留在本地执行,复杂推理任务上云完成,无需用户手动切换。同时,系统对每次执行所需的上下文做按需组装——根据任务语义和用户历史行为,预判并注入必要的背景信息,减少冗余干扰。Harness与Skills还基于历史执行轨迹持续迭代,使得不同底层模型都能在接近其能力上限的状态下稳定运行。
DeepResearch Bench是当前对深度研究型Agent最全面的评测基准,从洞察深度、内容准确性、可读性等维度考察Agent处理复杂研究任务的综合能力。DuMate以58.03的综合分位列第一,支撑这一成绩的是DuMate自研Skills体系中的Deep Search与Deep Research双引擎——前者负责跨平台语义检索与高价值信息定位,后者在此基础上叠加多轮推理与因果分析,将碎片信息提炼为结构化研究成果。

百度搭子DuMate登顶智能体评测基准PinchBench榜首。通讯员供图
自2026年3月上线以来,DuMate保持一天一版的更新节奏,已通过信通院两项安全测评且均获最高等级。
我国在运最大陆上风电基地全容量投产发电2026-06-12 04:46
伊朗总统赞扬中国等6国反战立场2026-06-12 04:26
HDMI付费专利见鬼去吧!中国人有了自己的视频接口——GPMI2026-06-12 03:50
第十二届暑假读一本好书征文活动启动2026-06-12 03:32
中新人物|跳水“三小只”的岔路口2026-06-12 02:50
全画幅,F1.2大光圈,自动对焦,国产镜头又发威了2026-06-12 02:49
亳州:篮球竞技比高低2026-06-12 02:38
岚图汽车启动H股全流通 流动性与估值有望双提升2026-06-12 02:31
前三季度长江干线集装箱吞吐量稳中有增2026-06-12 02:29
中国U20女足今晚对阵日本 冲击亚洲杯决赛2026-06-12 02:27
正月初一电影票房超18亿元2026-06-12 05:00
伊朗“德纳”号护卫舰幸存人员从斯里兰卡启程回国2026-06-12 04:13
一年300多场演出,地方剧种歌仔戏有多火?2026-06-12 04:05
陈浩民太太蒋丽莎携女儿探班 微博秀幸福2026-06-12 03:51
我国新能源营运汽车达164万辆2026-06-12 03:26
滁州水口镇师生五彩粽子传递拥军情2026-06-12 03:08
第十二届暑假读一本好书征文活动启动2026-06-12 02:57
第十二届暑假读一本好书征文活动启动2026-06-12 02:54
我省各地传统村落向全国展现徽风皖韵魅力2026-06-12 02:38
Lululemon,被调查2026-06-12 02:24