1
ServiceNow发布Q1财报前股价波动引投资者关注
ServiceNow将于近期公布2024年第一季度财报,市场普遍关注其云服务和AI产品收入增长情况。分析师预计其营收将达25.8亿美元,同比增长约20%。投资者正评估是否应继续持有或减持该股票,尤其在AI竞争加剧背景下。
公司近期在AI工作流自动化领域持续投入,推出多款集成生成式AI功能的产品。尽管增长势头稳定,但利润率压力和市场预期较高可能影响财报后股价表现。
1
NSA使用Anthropic未公开模型Mythos扫描网络安全漏洞
美国国家安全局(NSA)正在使用Anthropic公司未公开发布的AI模型Mythos Preview,主要用于扫描系统中可被利用的安全漏洞。该模型专为网络安全设计,但因具备潜在攻击能力,Anthropic仅向约40家机构提供访问权限。
NSA是未公开的获权机构之一,其使用行为发生在五角大楼将Anthropic列为“供应链风险”之后。双方此前因Claude模型是否用于大规模监控和自主武器开发产生分歧。
2
英国AI安全研究所获准使用Anthropic高级模型Mythos
英国AI安全研究所确认已获得Anthropic前沿模型Mythos的访问权限,成为少数可使用该模型的机构之一。Mythos专为网络安全任务设计,具备高强度推理与漏洞识别能力。
Anthropic本月早些时候发布Mythos,但以存在网络攻击风险为由未向公众开放。目前仅约40家组织获授权,其中仅12家被公开披露。
3
Anthropic CEO与白宫高层会晤关系缓和迹象显现
Anthropic首席执行官Dario Amodei上周五与白宫幕僚长Susie Wiles和财政部长Scott Bessent举行会议,白宫称会谈富有成效。此举被视为该公司与特朗普政府关系缓和的信号。
此前,五角大楼因Anthropic拒绝开放Claude模型用于国内监控和武器开发而将其列为供应链风险。尽管存在法律争议,NSA仍在使用其未公开模型Mythos。
此次交易结构类似于亚马逊两个月前与OpenAI的协议,当时亚马逊出资500亿美元参与1100亿美元融资轮,使OpenAI估值达7300亿美元。协议核心涉及亚马逊自研芯片Graviton和Trainium系列,具体覆盖Trainium2至Trainium4,尽管Trainium4尚未发布,Trainium3已于去年十二月推出。Anthropic还获得未来亚马逊芯片算力的购买选项。
1
标题: Qiskit SDK v2.4 发布 支持编译Python扩展提升性能
摘要:
Qiskit SDK v2.4 正式发布,作为 v2.x 系列的最新小版本,重点强化了核心基础设施,提升在大规模电路和复杂编译流程中的性能与可扩展性。
新版本支持基于 Qiskit C API 构建和分发编译型 Python 扩展,使开发者能通过 PyPI 发布高性能工具,无需修改现有代码即可实现性能跃升。
此次更新延续了对编译语言集成和高性能编译路径的投入,为未来更复杂的量子计算工作流打下基础。
2
标题: Qiskit v2.4 推出更快容错转译管道 降低T门数量
摘要:
Qiskit v2.4 引入更快速、可扩展的容错转译管道,显著优化离散基编译工作流,实现更低的 T 门数量和更高的执行效率。
该改进自动应用于现有代码,无需用户调整即可提升编译性能,尤其适用于早期容错量子电路的开发与实验。
这一升级强化了 Qiskit 在高级编译器工作流中的实用性,为复杂量子算法的高效实现提供支持。
3
标题: Qiskit v2.4 扩展C API能力 加快QPY序列化速度
摘要:
Qiskit v2.4 进一步扩展 C API 功能,增强底层接口能力,同时优化 QPY 序列化机制,显著提升大电路处理效率。
改进后的序列化流程支持更快速的数据读写,适用于高级编译工作流和大规模量子电路的高效传输与存储。
这些底层优化与 C API 增强共同巩固了 Qiskit 作为高性能量子编程框架的核心竞争力。
1
标题: Noetik获GSK 5000万美元合作 授权AI模型TARIO-2用于癌症治疗
摘要:
GSK与AI生物技术公司Noetik签署5000万美元合作协议,获得其AI模型TARIO-2的长期授权。TARIO-2是一种自回归Transformer模型,基于全球最大规模的肿瘤空间转录组数据集训练而成。
该模型能从患者已有的H&E染色切片中预测约1.9万个基因的空间表达图谱,而传统空间转录组检测在标准治疗中几乎未被使用。
此次合作不同于多数AI制药公司自研药物的模式,而是典型的软件授权交易,标志着大型药企对AI平台技术的认可。
2
标题: AI助力破解癌症治疗瓶颈 提升现有疗法临床成功率
摘要:
目前95%的癌症疗法在临床试验中失败,Noetik团队认为问题可能在于患者与疗法匹配不足。通过AI更精准识别肿瘤特征与药物响应关系,可显著提高现有疗法的成功率。
癌症并非单一疾病,而是包含数百种不同生物学机制的疾病集合,传统“治愈癌症”目标过于笼统。
AI可通过分析肿瘤空间转录组数据,帮助医生为患者匹配最可能有效的现有治疗方案,从而挽救数百万生命。
3
标题: 空间转录组技术成癌症研究关键 H&E切片实现1.9万基因预测
摘要:
全谱空间转录组是目前解析肿瘤最全面的技术,但标准治疗中几乎无人使用。Noetik的TARIO-2模型突破性地从常规H&E病理切片中预测约1.9万个基因的空间表达。
该技术大幅降低获取高分辨率肿瘤分子图谱的门槛,使更多患者能受益于精准治疗分析。
H&E切片是临床常规检测手段,TARIO-2的预测能力有望推动空间组学在真实世界中的广泛应用。
1
标题:
QIMMA推出阿拉伯语大模型质量优先排行榜
摘要:
QIMMA(قِمّة,阿拉伯语意为“顶峰”)是一个专注于阿拉伯语大语言模型(LLM)评估的新排行榜,强调在评测前对基准数据集进行严格质量验证。该榜单由研究团队开发,旨在解决当前阿拉伯语NLP评估中普遍存在的基准质量不可靠问题。
研究发现,许多广泛使用的阿拉伯语基准存在系统性缺陷,包括翻译失真、标注错误、编码问题和答案不准确等,这些问题会扭曲模型性能评估结果。
QIMMA通过建立严格的质量验证流程,在模型测试前清洗和筛选基准数据,确保评分真实反映模型在阿拉伯语上的实际能力。
2
标题:
阿拉伯语NLP评估面临碎片化与验证缺失挑战
摘要:
全球超4亿阿拉伯语使用者分布在多种方言和文化语境中,但当前阿拉伯语自然语言处理(NLP)评估体系仍高度碎片化,缺乏统一标准。
多个关键问题制约评估有效性:大量基准由英文翻译而来,导致语言表达不自然、文化错位;原生基准也常未经严格质量审查,存在标注不一致和错误答案。
此外,评估脚本和样本输出通常未公开,阻碍结果复现与第三方审计,影响研究透明度和可延续性。
1. Moonshot发布Kimi K2.6模型刷新中国开源模型领先地位
标题:
Moonshot推出Kimi K2.6模型以1T参数MoE架构超越Gemini 3.1
摘要:
Moonshot于2026年4月发布Kimi K2.6,采用1万亿参数混合专家(MoE)架构,激活参数达320亿,配备384个专家模块。该模型在前后训练上进一步优化,虽未披露具体训练增量,但性能显著提升,尤其在智能体编码与前端设计任务中表现突出。
其在与Google Gemini 3.1 Pro的对比测试中,取得68.6%的胜率与平局率,展现强大竞争力。此次更新延续K2.5的技术路线,强化了Agent Swarm强化学习机制,并整合ClawBench评估体系。
2. Kimi K2.6推动开源智能体编码技术前沿发展
标题:
Kimi K2.6与Qwen3.6-Max-Preview共推开源智能体编码突破
摘要:
Kimi K2.6作为当日最受关注发布,结合Qwen3.6-Max-Preview共同推动开源智能体编码技术进步。其基于多专家模型与MLA注意力机制,提升复杂任务处理能力,尤其在自动化编程与多智能体协作场景中表现优异。
Moonshot将此前Agent Swarm强化学习框架升级为“Claw Groups”,并配套推出ClawBench基准测试,增强模型在真实环境中的适应性与评估透明度。
3. AI工程师世界大会早鸟优惠即将截止
标题:
AI工程师世界大会早鸟优惠仅剩两天最高省500美元
摘要:
2026年夏季在旧金山举办的AI工程师世界大会早鸟报名即将结束,剩余时间不足48小时。参会者可锁定最高500美元可退款折扣,预计本届为年度最大规模AI工程盛会。
大会聚焦前沿AI工程实践,涵盖模型部署、智能体系统、开源工具链等议题,吸引全球开发者与企业参与。详细信息有限,建议尽快注册以享受优惠。
1
标题:
开源模型持续追赶闭源模型 性能差距评估存局限
摘要:
当前开源与闭源大模型之间存在明显性能差距,但这一差距常被简化为单一数字,掩盖了实际能力差异的复杂性。主流评估工具如Artificial Analysis Intelligence Index综合约10项子测试,试图衡量前沿语言模型能力,但其代表性正受到质疑。
随着时间推移,基准测试与真实应用场景的相关性不断变化,部分高分模型在现实部署中表现不佳。例如Gemini 3虽在基准测试中表现优异,却在实际AI代理应用中缺乏影响力,反映出评估体系与实际需求脱节。
2
标题:
AI基准测试可信度下降 代理任务评估仍处探索阶段
摘要:
当前AI基准测试在反映模型真实能力方面可信度降低,尤其在高分模型与实际应用表现不一致时更为明显。尽管代理类基准(agentic benchmarks)有所发展,但仍未成为可靠的能力衡量标准。
行业普遍存在将复杂性能动态简化为单一数值的倾向,忽略了训练方式、评估重点随时间演变的影响。随着后训练技术快速进步,旧有评估范式难以适应新变化,导致测量偏差持续扩大。
3
标题:
AI模型评估范式每18个月更迭 训练重点持续迁移
摘要:
AI行业评估重点平均每12至18个月发生转变,导致基准测试的适用性快速衰减。不同能力领域对应不同的训练数据与后处理方法,使得长期性能对比变得困难。
随着某一技术范式持续,行业对该领域的测量精度会提升,但新范式出现后原有标准迅速失效。当前后训练技术快速发展,进一步加剧了评估体系的不稳定性。
1
标题: Palmier实现手机远程控制15种AI代理
Palmier是一款连接AI代理与手机的开源工具,支持用户通过手机远程操控运行在电脑上的AI代理。目前已兼容15种以上命令行代理,包括Claude Code、Gemini CLI等主流工具。
该工具支持Linux、Windows和macOS系统,无需配置GCP或API密钥即可直接使用。用户可通过手机启动任务、查看进度并响应请求,实现离桌操作。
2
标题: AI代理通过Palmier调用手机短信日历等功能
Palmier赋予AI代理直接访问手机核心功能的能力,包括短信、日历、联系人、邮件、位置和推送通知等。无论用户身处何地,代理均可调用这些功能完成任务。
手机既可作为控制终端,也能作为工具被代理调用。例如,代理可自动创建日历事件或发送邮件,提升自动化效率。
3
标题: Palmier提供可选MCP服务器集成方案
Palmier支持可选的MCP服务器模式,允许AI代理以原生MCP工具方式调用手机功能。用户也可通过手机App或PWA直接使用内置功能,无需额外配置。
该设计兼顾灵活性与易用性,满足不同技术背景用户需求。目前项目处于alpha阶段,存在已知bug,欢迎反馈。
4
标题: 开发者征集Palmier功能反馈与代理支持建议
Palmier开发者希望收集用户反馈,重点包括工具实用性、最有价值的手机功能、需新增支持的代理CLI及操作体验问题。
目前已兼容Cursor CLI、OpenClaw等工具,支持按需、定时或事件触发任务执行。用户可通过GitHub提交意见与bug报告。
1
标题:
Nemotron Personas Korea 发布700万合成人格数据
摘要:
Nemotron-Personas-Korea 数据集包含700万完全合成的人格档案,基于韩国统计信息服务局、最高法院等官方数据生成,确保人口统计准确性。每个档案涵盖26个字段,包括职业、地域、生活阶段等,覆盖韩国全部17个省份和25个区。
该数据集由 NVIDIA 的 NeMo Data Designer 系统生成,结合概率图模型与 Gemma-4-31B 模型,实现韩语自然语言叙述生成。数据不含任何个人身份信息,符合韩国《个人信息保护法》要求。
2
标题:
NAVER Cloud 参与设计合成人格数据集
摘要:
NAVER Cloud 在 Nemotron-Personas-Korea 数据集设计阶段提供种子数据与领域专业知识,协助确保数据真实性与实用性。其贡献涵盖职业分布、地域特征等关键维度,增强数据集在韩国本土场景中的适用性。
该合作体现企业与公共机构在合成数据开发中的协同模式,有助于提升AI代理在韩国社会背景下的行为合理性。
3
标题:
韩国发布官方合成数据生成指南
摘要:
韩国是全球少数发布官方合成数据生成指南的国家之一,为敏感数据的模型训练提供治理框架。该指南强调数据 grounding 与隐私保护,要求合成数据必须基于真实统计分布。
Nemotron-Personas-Korea 严格遵循此指南,确保生成过程透明合规,为其他国家提供可借鉴的合成数据治理范例。
4
标题:
20分钟部署韩语AI代理教程发布
摘要:
NVIDIA 提供教程,指导用户从筛选 Nemotron-Personas-Korea 数据集到完成推理,20分钟内通过托管API部署韩语AI代理。流程涵盖数据过滤、人格匹配与模型调用,降低开发门槛。
该教程面向开发者与研究人员,支持快速构建符合韩国人口特征的对话代理,适用于客服、教育等场景。
1
标题:
美国研究称蔬果全谷物或增肺癌风险遭专家质疑
摘要:
一项尚未发表的小型研究声称,食用水果、蔬菜和全谷物可能增加非吸烟者患肺癌的风险,引发广泛争议。该研究由南加州大学Jorge Nieva团队基于166名50岁以下非吸烟肺癌患者的饮食调查数据得出,未设对照组且分组方式被批“随意”。
研究仅以会议摘要形式提交美国癌症研究协会,未经同行评审,其结论与数十年营养学共识相悖。专家指出其方法存在严重缺陷,如依赖事后假设、缺乏数据支撑,可能误读已知相关性。
2
标题:
美联邦饮食指南转向高肉高脂引发健康担忧
摘要:
在美国卫生部长罗伯特·肯尼迪推动下,联邦饮食指南近期转向推崇大量肉类、高蛋白和黄油摄入,背离传统均衡膳食建议。这一变化与动物性饮食风潮相呼应,部分人群甚至将牛脂用于面部护理,引发公共卫生界担忧。
同时,健康博主开始推广尼古丁产品,尽管该物质被公认具有心血管毒性且易成瘾。此类趋势叠加,使公众营养信息环境趋于混乱,科学饮食建议被边缘化。
1
华为HiFloat4训练格式在Ascend芯片测试中超越MXFP4
华为研究人员在Ascend芯片上对比测试4位精度格式HiFloat4与MXFP4,结果显示HiFloat4相对损失误差约为1.0%,优于MXFP4的1.5%。测试涵盖OpenPangu-1B、Llama3-8B和Qwen3-MoE-30B三种模型,模型越大,HiFloat4性能优势越明显。该成果反映中国企业在出口管制背景下加速自研低精度格式与专用硬件协同优化。
HiFloat4仅需RHT稳定技术即可接近BF16精度,而MXFP4需额外技术支撑。这一进展凸显华为在能效敏感场景下推动高效训练的布局,可能影响未来边缘计算与低功耗AI芯片设计方向。
2
自动化对齐研究进展推动AI安全机制发展
本期Import AI聚焦自动化对齐研究,探讨如何通过算法自动实现AI系统与人类价值观对齐。该方向旨在降低人工干预成本,提升大规模模型部署的安全性。研究结合强化学习与人类反馈,探索可扩展的对齐路径。
尽管具体技术细节有限,但趋势显示行业正从依赖人工标注转向自动化流程。此举有望加速安全AI系统的迭代周期,尤其在多语言与跨文化场景中具备潜在应用价值。
3
中国模型安全性研究引发国际关注
一项针对中国AI模型的安全研究被纳入本期Import AI,评估其在对抗性攻击与数据泄露方面的表现。研究采用标准化测试框架,量化模型在隐私保护与鲁棒性方面的表现。
虽然具体模型名称与测试结果未详述,但此举反映全球对非西方AI系统安全性的审查加强。此类研究有助于建立跨国AI安全基准,推动更透明的技术评估体系。
1
标题:
Fermi联合创始人兼CEO及CFO突然离职致股价暴跌22%
摘要:
Fermi联合创始人兼CEO托比·纽格鲍尔与CFO迈尔斯·埃弗森突然离职,公司周一股价应声下跌22%。纽格鲍尔辞去董事长职务,但仍保留董事会席位,由独立董事马吕斯·哈斯接任董事长。
埃弗森因梅丽莎·A·纽格鲍尔2020信托行使董事指定权,当选为董事会成员。此次人事变动被公司称为“Fermi 2.0”,旨在向投资者传递项目持续推进的信号。
Fermi由前美国能源部长里克·佩里联合创办,正在德克萨斯州阿马里洛开发名为“Project Matador”的AI园区,计划利用核反应堆为数据中心供电,但近期遭遇关键客户摩擦等挑战。
1
全球零售商大促期间系统自动扩容却致性能下降
在大型销售活动期间,某全球零售商线上需求激增,云基础设施自动扩展,安全系统加强管控,监控工具触发修复流程。然而实际运行中系统性能下降,客户体验受损,成本飙升。
各团队工程师齐聚控制室,发现每套系统均按设计运行,却因缺乏跨域协同导致整体失效。此类问题并非偶发,而是企业普遍面临的系统性挑战。
2
企业自治系统各自为政暴露协同短板
企业广泛引入自治能力,系统可自主决策,但各工具域内独立运作,缺乏对整体目标与权衡的共享理解。麦肯锡指出,代理型AI本质是“决策权转移”,迫使企业重新思考问责机制。
IT运维中自治已成常态,问题不再是能否自治,而是如何确保跨团队、平台与业务目标的一致性与治理。当前AIOps项目停滞主因并非自动化不足,而是协调缺失。
3
云优化与安全修复冲突揭示自治系统矛盾
过去十年,企业通过多层自治能力增强IT运营效率,系统响应更快、人工干预更少。但各系统仅在本域内按设计运行,跨域冲突频发。
例如云成本优化可能削弱应用韧性,安全修复可能增加延迟影响性能。环境越复杂,此类矛盾越突出,凸显全局协调机制的紧迫性。
1
标题: 福布斯在枪击案报道中嵌入国会控枪预测游戏
摘要:
福布斯在报道路易斯安那州31岁男子夏马尔·埃尔金斯枪杀8名儿童事件时,嵌入“ForbesPredict”预测模块,要求读者预测国会是否会在2026年底前通过新枪支安全法案。该模块以红绿按钮形式呈现,用户可点击选择“会”或“不会”。
此举引发争议,因报道涉及极端暴力事件,而预测功能被批评为将悲剧娱乐化。报道引用《纽约时报》称凶手有心理健康问题并曾表达自杀倾向。
2
标题: 福布斯推出ForbesPredict以应对搜索引擎流量下滑
摘要:
福布斯于2024年1月推出ForbesPredict功能,旨在应对搜索引擎流量下降趋势,提升用户停留时长。该功能模仿Kalshi和Polymarket等预测市场平台,但用户无法赢取现金,仅获得无实际价值的代币作为参与奖励。
首席创新官尼娜·古德表示,AI正改变信息获取方式,出版商需从追求规模转向深化用户参与。ForbesPredict鼓励用户返回网站、参与互动并投入思考,而非仅浏览标题。