01 研究人员称，AI 刚刚打破了自主网络攻防能力的所有基准纪录

信息有限

标题： CyberScoop报道GPT5与Claude网络基准失真评测方法受质疑

摘要：
CyberScoop发布一篇关于AI自主网络能力评测的报道，讨论GPT-5、Claude和Mythos等模型在网络安全基准测试中的表现。现有内容仅提供文章标题链接，未披露具体测试数据、版本编号或厂商正式发布信息。

从标题可提取的信息看，报道核心是“自主网络能力基准已失效”这一判断，即现有benchmark可能无法准确衡量大模型在网络攻防任务中的真实能力。这类问题通常涉及任务设计、评分标准、环境约束与模型代理化执行方式之间的不匹配。

该议题反映出AI安全评测正从静态问答转向真实操作场景。若传统基准无法覆盖多步骤攻击链、工具调用和持续决策过程，行业可能需要重建更接近实战环境的评测体系。

现有网络安全基准或已失效大模型评测转向代理化能力真实攻防场景要求更高标准

来源

01 研究人员称，AI 刚刚打破了自主网络攻防能力的所有基准纪录 Researchers say AI just broke every benchmark for autonomous cyber capability

02 Anthropic 的 Cat Wu 表示，未来 AI 将在你意识到需求之前预判你的需求 Anthropic’s Cat Wu says that, in the future, AI will anticipate your needs before you know what they are

03 我们对 TanStack npm 供应链攻击的回应 Our response to the TanStack npm supply chain attack

04 ServiceNow 的开放式 AI 战略遭遇 40 亿美元债务的现实考验 - AD HOC NEWS ServiceNow's Open-Door AI Strategy Meets a $4 Billion Debt Reality Check - AD HOC NEWS

05 ServiceNow的AI控制塔对支出的可见性模糊不清 ServiceNow’s AI control tower offers hazy view of spend - cio.com

ServiceNow推出AI控制塔功能提供企业AI支出可视化管理能力

ServiceNow Launches AI Control Tower for Enterprise Spend Visibility

06 热门股票 ServiceNow, Inc.（NOW）现在值得买入吗？——Yahoo Finance Is Trending Stock ServiceNow, Inc. (NOW) a Buy Now? - Yahoo Finance

07 [AInews] Codex 崛起，Claude 计量程序化使用 [AINews] Codex Rises, Claude Meters Programmatic Usage

08 Ramp数据显示，Anthropic企业客户数量现已超过OpenAI Anthropic now has more business customers than OpenAI, according to Ramp data

09 构建安全高效的沙箱环境以支持 Windows 上的 Codex Building a safe, effective sandbox to enable Codex on Windows

10 AI Alliance联合Yann LeCun启动Project Tapestry，打造主权AI AI Alliance Launches Project Tapestry to Build Sovereign AI with Yann LeCun

11 AI聊天机器人泄露用户真实电话号码 AI chatbots are giving out people’s real phone numbers

12 Anthropic将AI模型“作恶”归咎于反乌托邦科幻小说 Anthropic blames dystopian sci-fi for training AI models to act “evil”

13 ServiceNow 与 Boomi 深化合作，助力 AI 控制塔愿景 - Yahoo Finance ServiceNow And Boomi Deepen Ties To Power AI Control Tower Ambitions - Yahoo Finance

14 SAP屏蔽外部AI代理，Salesforce和ServiceNow未采取限制 - Techzine Global SAP blocks external AI agents. Salesforce and ServiceNow don’t. - Techzine Global

15 财务团队如何使用 Codex How finance teams use Codex

16 ServiceNow CEO Bill McDermott：硅谷在企业AI方向上走错了路 - Fast Company ServiceNow CEO Bill McDermott: Silicon Valley is getting enterprise AI wrong - Fast Company

17 谁来决定AI告诉你什么？Meta前新闻负责人Campbell Brown有话说 Who decides what AI tells you? Campbell Brown, once Meta’s news chief, has thoughts

18 Origin Lab 获 800 万美元融资，助力游戏公司向世界模型构建者出售数据 Origin Lab raises $8M to help video game companies sell data to world-model builders

19 Amazon 推出由 Alexa+ 驱动的搜索栏 AI 购物助手 Amazon launches an AI shopping assistant for the search bar, powered by Alexa+

20 WhatsApp 在 Meta AI 聊天中新增隐身模式 WhatsApp adds an incognito mode in Meta AI chats

21 招聘信息是否显示出 AI 对劳动力市场的早期影响？ Do Job Postings Show Early Labor-Market Effects of AI?

22 Rivian在最新软件更新中新增车载AI助手 Rivian adds a new onboard AI assistant to its latest software update

23 Show HN：我打造了一款 AI 旅行相机，因为我受够了 Google Lens Show HN: I built an AI travel camera because I was tired of Google Lens

24 用 AI 分析一套 40 年历史的系统：结果发现其竟拥有现代架构 40-Year-Old System Analyzed with AI: It Turned Out to Have a Modern Architecture

25 Notion 将其工作空间转变为 AI 代理中心 Notion just turned its workspace into a hub for AI agents

26 NASA披露Artemis III部分细节，但关键决策仍悬而未决 NASA provides some details about Artemis III, but hard decisions remain

28 Poppy 推出主动式 AI 助手，助力整理数字生活 Poppy debuts a proactive AI assistant to help organize your digital life

29 我们将 AI 用作告警文档的受控探针 We used an AI as a controlled probe of our alert documentation

30 Cube：一次封装基准，向所有人开放 Agentic AI Cube: Wrapping Benchmarks Once, Unlocking Agentic AI for Everyone

31 警惕 AI 生产力作秀 Beware AI Productivity Theater

32 Hermes 推出自进化 AI 智能体，搭载 NVIDIA RTX PC 与 DGX Spark 平台 Hermes Unlocks Self-Improving AI Agents, Powered by NVIDIA RTX PCs and DGX Spark

33 急于求成的特朗普邀请“Tim Apple”、黄仁勋和埃隆·马斯克出席与习近平的峰会 Desperate Trump taps "Tim Apple," Jensen Huang, Elon Musk to attend Xi summit

34 太阳能无人机翼展堪比大型客机，刷新飞行纪录后坠毁 Solar drone with jumbo jet wingspan broke a flight record—then it crashed

35 FCC因协助AT&T和Starlink收购EchoStar频谱激怒小型运营商 FCC angers small carriers by helping AT&T and Starlink buy EchoStar spectrum

36 数据经纪商反对加州AI审计要求 Data Brokers Push Back Against California AI Audit Requirements

37 NVIDIA 与 Ineffable Intelligence 联手打造强化学习基础设施的未来 NVIDIA, Ineffable Intelligence Team Up to Build the Future of Reinforcement Learning Infrastructure

38 软件开发者称AI正在腐蚀他们的大脑 Software Developers Say AI Is Rotting Their Brains

继续阅读Continue Reading

01 研究人员称，AI 刚刚打破了自主网络攻防能力的所有基准纪录

02 Anthropic 的 Cat Wu 表示，未来 AI 将在你意识到需求之前预判你的需求

03 我们对 TanStack npm 供应链攻击的回应

04 ServiceNow 的开放式 AI 战略遭遇 40 亿美元债务的现实考验 - AD HOC NEWS

05 ServiceNow的AI控制塔对支出的可见性模糊不清

06 热门股票 ServiceNow, Inc.（NOW）现在值得买入吗？——Yahoo Finance

07 [AInews] Codex 崛起，Claude 计量程序化使用

08 Ramp数据显示，Anthropic企业客户数量现已超过OpenAI

09 构建安全高效的沙箱环境以支持 Windows 上的 Codex

10 AI Alliance联合Yann LeCun启动Project Tapestry，打造主权AI

11 AI聊天机器人泄露用户真实电话号码

12 Anthropic将AI模型“作恶”归咎于反乌托邦科幻小说

13 ServiceNow 与 Boomi 深化合作，助力 AI 控制塔愿景 - Yahoo Finance

14 SAP屏蔽外部AI代理，Salesforce和ServiceNow未采取限制 - Techzine Global

16 ServiceNow CEO Bill McDermott：硅谷在企业AI方向上走错了路 - Fast Company

17 谁来决定AI告诉你什么？Meta前新闻负责人Campbell Brown有话说

18 Origin Lab 获 800 万美元融资，助力游戏公司向世界模型构建者出售数据

19 Amazon 推出由 Alexa+ 驱动的搜索栏 AI 购物助手

20 WhatsApp 在 Meta AI 聊天中新增隐身模式

21 招聘信息是否显示出 AI 对劳动力市场的早期影响？

22 Rivian在最新软件更新中新增车载AI助手

23 Show HN：我打造了一款 AI 旅行相机，因为我受够了 Google Lens

24 用 AI 分析一套 40 年历史的系统：结果发现其竟拥有现代架构

25 Notion 将其工作空间转变为 AI 代理中心

26 NASA披露Artemis III部分细节，但关键决策仍悬而未决

28 Poppy 推出主动式 AI 助手，助力整理数字生活

29 我们将 AI 用作告警文档的受控探针

30 Cube：一次封装基准，向所有人开放 Agentic AI

32 Hermes 推出自进化 AI 智能体，搭载 NVIDIA RTX PC 与 DGX Spark 平台

33 急于求成的特朗普邀请“Tim Apple”、黄仁勋和埃隆·马斯克出席与习近平的峰会

34 太阳能无人机翼展堪比大型客机，刷新飞行纪录后坠毁

35 FCC因协助AT&T和Starlink收购EchoStar频谱激怒小型运营商

36 数据经纪商反对加州AI审计要求

37 NVIDIA 与 Ineffable Intelligence 联手打造强化学习基础设施的未来

38 软件开发者称AI正在腐蚀他们的大脑