2026年04月03日 - AI资讯速览

01 使用Veo 3.1 Lite构建，我们最具成本效益的视频生成模型

谷歌推出Veo 3.1 Lite视频生成模型，作为其最具成本效益的视频生成方案，价格低于Veo 3.1 Fast的一半，但保持相同运行速度。该模型支持文本生成视频和图片生成视频，提供横屏（16:9）与竖屏（9:16）比例，以及720p和1080p分辨率输出。用户可自定义视频时长为4秒、6秒或8秒，费用相应调整。该模型面向开发者，旨在支持高并发视频应用开发，已于今日通过Gemini API和Google AI Studio的付费层级开放使用。

Veo 3.1 Lite成本低于Fast版一半支持文本与图片生成视频提供多种分辨率与时长选项

来源

原文链接

谷歌宣布自4月7日起降低Veo 3.1 Fast模型的定价，进一步降低开发者集成视频生成功能的门槛。此举配合Veo 3.1 Lite的发布，完善了Veo 3.1系列模型的产品线，使开发者可根据性能与成本需求灵活选择。公司强调将持续推动视频生成技术的可及性，并预告未来将有更多更新。

Veo 3.1 Fast将于4月7日降价完善Veo 3.1系列模型布局提升开发者接入便利性

来源

原文链接

查看原文 → View Original →

02 Gemma 4：逐字节对比，性能最强的开源模型

Google发布新一代开源AI模型Gemma 4，旨在提供每参数最高智能水平，专为高级推理和自主代理工作流设计。该模型基于Gemini 3的技术研发，包含四个版本：E2B、E4B、26B MoE和31B Dense，适用于不同硬件环境。31B模型在Arena AI文本排行榜上位列全球开源模型第三，26B模型排名第六，性能超越参数规模大20倍的模型。Gemma系列自初代发布以来已被下载超4亿次，衍生出超10万种变体。新模型采用Apache 2.0许可，强调可访问性与开放性，支持边缘设备低延迟运行，推动移动端AI应用发展。

Gemma 4为Google最强开源模型 31B模型全球开源排名第三支持边缘设备低延迟运行采用Apache 2.0开源许可

来源

原文链接

查看原文 → View Original →

03 微软推出三款新基础模型挑战AI对手

微软AI研究实验室于周四发布三款基础AI模型，分别为MAI-Transcribe-1、MAI-Voice-1和MAI-Image-2，支持文本、语音和图像生成。MAI-Transcribe-1支持25种语言语音转文字，速度是Azure Fast的2.5倍；MAI-Voice-1可在1秒内生成60秒音频并支持自定义声音；MAI-Image-2为视频生成模型，已于3月19日在MAI Playground上线，现三款模型均接入Microsoft Foundry平台。这些模型由Mustafa Suleyman领导的MAI Superintelligence团队开发，该团队于2025年11月成立。微软强调其“以人为本”的AI理念，并指出新模型在成本上较谷歌和OpenAI更具竞争力。

三款多模态AI模型正式发布支持语音转写、音频与视频生成强调低成本与实用性优势

来源

原文链接

微软宣布其AI模型将通过Microsoft Foundry和MAI Playground平台提供服务，其中MAI-Image-2已于3月19日率先在MAI Playground上线。MAI Playground被定位为大型语言模型测试软件，现整合转录与语音生成功能。公司表示未来将有更多模型直接集成至微软产品中。此举显示微软正加速构建自主多模态AI技术栈，以在竞争激烈的生成式AI市场中与OpenAI、谷歌等对手抗衡，尽管其仍与OpenAI保持合作关系。

模型通过Foundry和Playground平台发布 MAI Playground支持模型测试与体验未来将深度集成至微软产品线

来源

原文链接

微软AI负责人Mustafa Suleyman在博客中阐述其“人文主义AI”理念，强调模型设计以人类沟通方式为中心，注重实际应用场景。MAI Superintelligence团队作为开发主体，于2025年11月成立，直接向Suleyman汇报。微软指出，新模型定价低于谷歌与OpenAI同类产品，意在以成本优势吸引企业用户。尽管未披露具体定价或性能基准数据，但公司明确将价格作为市场竞争关键策略之一。

提出“人文主义AI”设计理念强调模型实用性与人类沟通优化以低成本策略应对市场竞争

来源

原文链接

查看原文 → View Original →

04 Gradient Labs 为每位银行客户提供 AI 客户经理

Gradient Labs 利用 GPT-4.1 和 GPT-5.4 mini 与 nano 模型，开发 AI 代理以自动化银行支持工作流程。该系统强调低延迟和高可靠性，旨在提升银行客户服务效率。通过集成先进语言模型，Gradient Labs 实现了对复杂查询的快速响应与处理，减少人工干预需求。该技术应用可能推动金融行业客服自动化进程，降低运营成本并提高服务一致性。目前具体部署规模与客户案例尚未披露。

使用 GPT 系列模型驱动 AI 代理专注银行支持流程自动化强调低延迟高可靠性

来源

原文链接

查看原文 → View Original →

05 2026年3月发布的最新AI新闻

2026年3月，谷歌推出多项AI功能更新，重点提升Gemini对用户个人上下文的理解能力，涵盖旅行计划、工作项目和购物偏好等场景，允许用户将设备设为 proactive helpers（主动助手）。此次更新旨在让AI更自然地融入日常任务，提升效率与直觉性体验。同时，Search Live功能已扩展至AI Mode可用的200多个国家和地区，用户可通过语音或摄像头进行实时对话交互，适用于故障排查、旅行建议或物体识别等场景。Canvas工具也在美国英语区上线，支持长期项目规划与创意写作、编码任务。

Gemini增强上下文理解能力 Search Live覆盖200余国家地区 Canvas支持创意写作与编码

来源

原文链接
谷歌为AI Ultra和Pro订阅用户增强了Gemini在Docs、Sheets、Slides和Drive中的集成功能，使其能安全地跨文件、邮件和网络信息进行综合分析，提取有用洞察并辅助协作。该更新提升了办公场景下的AI生产力工具能力，支持更智能的内容生成与数据整理。尽管具体技术细节未完全披露，但表明谷歌正深化AI在生产力套件中的实际应用。

Gemini整合多源信息分析提升办公套件AI生产力面向订阅用户开放增强功能

来源

原文链接

查看原文 → View Original →

06 OpenAI收购热门创始人主导的商业脱口秀TBPN

OpenAI 收购了科技行业知名访谈节目 TBPN（Technology Business Programming Network），这是其首次收购媒体公司。TBPN 由前科技创始人 John Coogan 和 Jordi Hays 主持，每日通过 YouTube 和 X 平台直播三小时，内容聚焦科技、商业、人工智能及国防领域。该节目在硅谷拥有忠实受众，被视为科技界的“体育中心”，曾邀请 Mark Zuckerberg、Satya Nadella、Marc Benioff 及 Sam Altman 等顶级 CEO 参与对话。收购后，TBPN 将保留独立品牌，并由 OpenAI 协助扩大影响力。据《华尔街日报》报道，TBPN 今年营收预计超 3000 万美元。OpenAI 表示将借助其创始人的传播与营销能力，推动公众理解 AI 技术的实际影响。

OpenAI 首次收购媒体公司 TBPN 年营收预计超3000万美元节目保留独立品牌运营助力AI技术公众传播

来源

原文链接

OpenAI 表示将利用 TBPN 创始人在传播与营销方面的专业能力，拓展 AI 技术的公众认知。OpenAI AGI 部署负责人 Fidji Simo 指出，TBPN 能帮助人们理解 AI 对日常生活的全面影响。她强调，对于 OpenAI 这类非传统企业，标准传播策略并不适用，而 TBPN 的独特影响力正契合其需求。此外，OpenAI 已拥有内部播客用于深度对话，此次收购将进一步丰富其内容生态。TBPN 将继续作为独立品牌运营，OpenAI 将支持其规模化发展。

借助TBPN提升AI公众认知标准传播策略不适用OpenAI 丰富OpenAI内容生态支持TBPN规模化发展

来源

原文链接

TechCrunch Disrupt 2026 将于近期举办，预计吸引超过 1 万名创始人、投资者和科技领袖参与。活动为期三天，包含 250 多场战术性会议、高效社交对接及推动市场变革的创新展示。参与者可借此寻找下一轮融资、人才招募或突破性合作机会。主办方鼓励提前注册以享受优惠。

Disrupt 2026将聚集万名行业人士提供250余场专业会议助力融资与人才对接提前注册可享优惠

来源

原文链接

查看原文 → View Original →

07 [AI新闻] 科技行业仅剩的4类岗位 [AINews] The Last 4 Jobs in Tech

Anthropic 在 Claude Code 中新增“计算机使用”功能，允许代理通过命令行直接打开应用、点击界面并测试其生成的代码，目前面向 Pro/Max 用户以研究预览形式提供。该功能实现了“编码→运行→检查界面→修复→重新测试”的闭环验证流程，被开发者视为提升应用迭代可靠性的关键突破，尤其相较于开放式桌面代理更具可控性。此举标志着 AI 编程工具从代码生成向端到端开发流程的演进。

Claude Code 支持计算机操作实现闭环代码验证流程提升应用迭代可靠性

来源

原文链接
OpenAI 推出 Codex 插件，可与 Anthropic 的 Claude Code 集成，支持在 Anthropic 工具链内触发代码审查、对抗性审查和“救援”流程，用户仅需 ChatGPT 订阅即可使用，无需额外开发集成代码。这一集成表明，AI 编程工具正从单一封闭系统转向可组合的模块化架构，跨代理协作逐渐成为行业标准，推动开发栈向灵活、可互操作的“ harnesses”（ harnesses）模式发展。

Codex 插件实现跨工具链协作无需定制代码即可集成标志编程工具模块化趋势

来源

原文链接
Yoni Rechtman 在 99D Substack 提出后 AI 时代白领科技岗位的新思维模型，引用 Karri Saarinen（Linear CEO）的观点，将团队协作角色类比《魔兽世界》中的职业分工，强调专业化与协同。该模型是对传统年龄层级公司结构的二维扩展，更贴合当前 AI 驱动的组织变革趋势，如 AI 工程师和小型高效团队（Tiny Teams）的兴起，已在 Meta 等科技公司落地。

提出后 AI 岗位新模型类比游戏角色分工反映组织扁平化趋势

来源

原文链接

The article discusses evolving organizational structures in the tech industry driven by AI adoption, highlighting a mental model proposed by Yoni Rechtman on emerging white-collar roles in a post-AI landscape. It references Karri Saarinen, CEO of Linear, who likened new team dynamics to roles in World of Warcraft, suggesting a shift from traditional hierarchical models to specialized, collaborative functions. This analogy reflects a broader trend where companies are moving away from age-based or rigid departmental structures toward agile, role-based teams optimized for AI integration. The piece notes prior trends such as the rise of the AI Engineer role at Meta in 2023 and the emergence of "Tiny Teams" by 2025, indicating a continued evolution in how tech organizations are structured. While specific job titles or responsibilities are not detailed, the focus is on adaptability and specialization in response to AI capabilities. The analysis suggests that future tech roles will emphasize coordination, oversight, and augmentation of AI systems rather than direct execution of routine tasks.

Key Takeaways:
AI is reshaping tech org charts toward specialized, agile roles
New team models draw inspiration from collaborative gaming dynamics
Meta has pioneered AI Engineer and Tiny Teams structures
Future roles will focus on AI oversight and integration

Source: Original Article

Anthropic has introduced computer use functionality within Claude Code, enabling the AI agent to interact with applications, navigate user interfaces, and test code directly from the command line. This feature, available in research preview for Pro and Max users, supports a closed-loop development process: writing code, executing it, inspecting the UI, and iterating based on results. Engineers have described this capability as a critical advancement for reliable application development, addressing a key limitation of earlier desktop agents that lacked real-time verification. Additionally, OpenAI has launched a Codex plugin for Claude Code that allows integration with ChatGPT subscriptions to trigger code reviews, adversarial testing, and error recovery workflows. This interoperability signals a shift toward modular, composable coding tools rather than monolithic platforms. The development reflects a broader industry move toward agent harnesses that can collaborate across systems, improving efficiency and reducing the need for custom integration code.

Key Takeaways:
Claude Code now supports UI interaction and real-time testing
Closed-loop development improves reliability in AI-assisted coding
OpenAI and Anthropic tools are becoming interoperable
Coding stacks are evolving into modular, composable systems

Source: Original Article

查看原文 → View Original →

08 在 Google Vids 中免费创建、编辑和分享视频

Google Vids 新增多项AI视频创作功能，包括高质量视频生成、自定义音乐生成及AI虚拟形象。所有拥有Google账户的用户均可免费使用Veo 3.1模型生成视频片段，每月免费额度为10次。用户可通过简单文字提示或照片生成高质量视频，适用于制作宣传短片、活动海报或节日问候等内容。Google AI Pro与Ultra订阅用户还可使用Lyria 3系列模型生成最长3分钟的原声音乐，匹配视频情绪与节奏。此外，订阅用户可使用AI虚拟形象，实现角色外观与动作的完全可控，提升视频叙事一致性。

免费生成高质量视频自定义音乐匹配视频氛围 AI虚拟形象支持动作控制

来源

原文链接

自本周起，Google Vids 向所有用户开放基于 Veo 3.1 的视频生成能力，无需额外费用。个人用户每月可免费生成10段视频，适用于快速制作教程、旅行回顾或生日集锦等场景。该功能降低了高质量视频创作门槛，推动普通用户内容生产。同时，Lyria 3 与 Lyria 3 Pro 模型支持为视频定制原创音乐，订阅用户可生成30秒至3分钟的配乐，增强视频表现力。AI虚拟形象功能则允许用户设定角色外观与行为，实现更自然的视频叙事。

Veo 3.1支持免费视频生成 Lyria模型生成定制音乐虚拟形象提升内容一致性

来源

原文链接

Google Vids 更新聚焦AI驱动的内容创作工具，涵盖视频生成、音乐合成与虚拟角色控制。免费用户每月可生成10段视频，使用Veo 3.1模型实现从文本或图像快速生成视频。订阅用户额外获得Lyria 3系列音乐生成能力，可创作适配视频情绪的原声。AI虚拟形象功能支持导演级控制，包括角色动作与表情设定，适用于品牌宣传或教育内容。此次更新强化了Google在AI创作工具领域的竞争力。

免费用户享有限视频生成订阅用户可生成定制音乐虚拟形象支持导演级控制

来源

原文链接

查看原文 → View Original →

09 [AINews] Claude 代码源码泄露 [AINews] The Claude Code Source Leak

OpenAI完成其历史上最大规模的融资，总金额增加数十亿美元，披露年收入达240亿美元，增速为谷歌和Meta巅峰时期的四倍。同时，OpenAI通过“软IPO”方式获得30亿美元来自高净值投资者的注资，并被ARK Invest纳入ETF。然而，ChatGPT周活跃用户（WAU）增长停滞，仍未突破10亿目标，原定于2025年底达成。Codex亦未在3月公布新的里程碑。

OpenAI融资创纪录年收入达240亿美元 ChatGPT用户增长停滞

来源

原文链接
Claude Code源代码意外泄露，虽对Anthropic未造成重大损害，但引发广泛关注与讨论。该代码库约50万行，已被多次转发和托管。泄露内容包含未发布功能如“/buddy”愚人节彩蛋、Boris的“WTF”计数器、Capybara/Mythos v8模型等。业内重点关注的特性包括：将仓库状态（如提交记录、分支信息）纳入上下文、强缓存复用机制、自定义Grep/Glob/LSP工具、少于20个默认工具（共60余个），以及三层结构的会话记忆系统（MEMORY.md索引、主题文件等）。

Claude Code源码意外泄露包含多项未发布功能采用三层记忆架构设计

来源

原文链接

OpenAI announced its largest fundraising round in history, securing additional billions in capital. The company disclosed an annual recurring revenue (ARR) of $24 billion, growing at a rate four times faster than Google and Meta during their peak growth periods. As part of a “soft IPO,” OpenAI attracted $3 billion from high-net-worth investors and was included in ETFs managed by ARK Invest. However, user growth for ChatGPT appears to have plateaued, with weekly active users (WAU) still below the 1 billion target set for the end of 2025. Additionally, Codex has not released a new milestone for March, raising concerns about development momentum. Despite strong financial performance, these indicators suggest potential challenges in user acquisition and product innovation. The fundraising success underscores investor confidence in OpenAI’s long-term strategy, even as growth metrics show signs of slowing.
Key Takeaways:
OpenAI hits $24B ARR with rapid revenue growth
ChatGPT WAU growth stalls below 1B target
Soft IPO includes $3B from private investors and ETF inclusion
Codex lacks March milestone, signaling possible delays
Source: Original Article
The accidental leak of Claude Code’s source code has drawn significant attention in the AI community. While not critically damaging to Anthropic, the incident is seen as embarrassing and highly informative for developers and researchers. The 500,000-line codebase has been widely shared across social media and hosted in multiple public forks. Notable discoveries include a full verb list, references to unreleased models like Capybara/Mythos v8, an April Fools’ feature called /buddy, and a confirmed “WTF counter” attributed to an engineer named Boris. Among the most discussed technical insights are Claude Code’s use of structured session memory, aggressive caching, custom search tools, and a three-layer memory system involving MEMORY.md as an index and topic-specific files. The agent uses fewer than 20 default tools out of a possible 60+, including Bash, file editing, web search, and planning tools. These features highlight advanced context management and efficiency strategies in AI coding assistants.
Key Takeaways:
Claude Code source leak reveals internal architecture and tools
Three-layer memory system improves context retention
Fewer than 20 tools active by default, up to 60+ available
Unreleased features and model references discovered in code
Source: Original Article

查看原文 → View Original →

10 加速AI下一阶段发展 Accelerating the next phase of AI

OpenAI完成1220亿美元新一轮融资，旨在推动前沿人工智能技术在全球范围的扩展，投资下一代计算基础设施，并满足ChatGPT、Codex及企业级AI产品日益增长的市场需求。该融资规模显著，反映出资本市场对AI技术商业化潜力的高度认可，也将加速OpenAI在算力、研发和全球部署方面的战略布局。此举可能进一步巩固其在生成式AI领域的领先地位，并对行业竞争格局产生深远影响。

融资额达1220亿美元重点投资前沿AI与算力满足ChatGPT等增长需求

来源

原文链接

查看原文 → View Original →

11 Codex 现为团队提供更灵活的定价方案

OpenAI推出Codex的按需付费定价模式，适用于ChatGPT Business和企业版用户。该模式允许团队根据实际使用情况灵活付费，降低初期投入门槛，便于企业从小规模试用逐步扩展至全面部署。此举旨在提升企业客户对AI工具的采纳率，增强OpenAI在商业市场的竞争力。新定价策略可能影响其他AI服务商的定价模型，推动行业向更灵活的付费方式发展。

Codex新增按需付费选项支持ChatGPT商业与企业版降低企业使用门槛促进AI工具规模化应用

来源

原文链接

查看原文 → View Original →

12 在 Gemini API 中平衡成本与可靠性的新方法

谷歌为Gemini API新增Flex与Priority两个服务层级，旨在帮助开发者在成本与可靠性之间实现更精细的平衡。Flex适用于对延迟不敏感的高吞吐量后台任务，如数据增强或代理模型“思考”过程，提供标准API 50%的价格优惠，采用同步接口，无需管理异步作业。Priority则面向交互式应用（如聊天机器人），提供最高可靠性保障，确保关键任务稳定运行。两者均通过统一接口调用，简化架构设计，避免传统同步与异步服务分离带来的复杂性。

新增Flex与Priority服务层级 Flex节省50%成本，适合后台任务 Priority保障高可靠性交互应用

来源

原文链接

查看原文 → View Original →

13 Moonlake：因果世界模型应具备多模态、交互性和高效性 —— 对话 Chris Manning 与 Fan-yun Sun

本期节目聚焦于世界模型（World Models）领域的多样化探索，回顾了过去一个季度中多位专家与机构的相关研究，包括Yi Tay对主题的引入、Fei-Fei Li与Justin Johnson关于Marble项目的讨论、Pim de Witte基于大规模游戏数据的世界模型研究，以及Andrew White在科学播客中分享的Cosmos世界模型。同时，NVIDIA、Waymo、Tesla、Google（发布Genie 3）和Yann LeCun（为AMI融资10亿美元并发布LeWorldModel）也相继推出各自方案。

多位专家参与世界模型研究多家科技巨头发布相关模型研究方向涵盖效率与因果结构

来源

原文链接
Moonlake AI提出一种与传统世界模型截然不同的方法，强调即时多人互动、长期持续运行和高度交互性，区别于Genie 3等模型的局限性（如地形穿模、缺乏物理交互、最长仅60秒沉浸）。其技术基于游戏引擎引导，通过模拟环境、预测结果和长时程规划实现多样化世界建模，并训练定制化智能体。

支持多人实时交互基于游戏引擎构建实现长期环境模拟

来源

原文链接
Chris Manning与Ian Goodfellow指出，当前最先进模型仍存在物理与空间理解缺陷，例如物体悬浮或穿模现象。他们认为，并非所有任务都需要高分辨率像素级建模，尤其在规划下一步行动时，结构化和因果推理比盲目扩大模型规模更高效。人类在多数经济价值高的任务中并不依赖极致细节，暗示效率优化路径的重要性。

现有模型存在物理逻辑错误结构化建模优于单纯扩参多数任务无需高精度像素

来源

原文链接

查看原文 → View Original →

14 Reddit 的 r/programming 板块已禁止所有与 AI 大语言模型相关的内容

Reddit上最大的编程社区r/programming已全面禁止与人工智能及大语言模型（LLM）相关的内容发布。该社区明确表示，未来将仅保留关于AI的高质量讨论，以维护内容的专业性和讨论深度。此举反映出社区管理者对低质量AI生成内容泛滥的担忧，旨在提升整体讨论质量。此政策可能影响开发者和AI研究者在主流技术社区中的交流方式，并促使其他技术社区重新评估对AI内容的审核标准。

r/programming禁止AI相关内容仅保留高质量AI讨论社区内容质量管控升级

来源

原文链接

查看原文 → View Original →

15 Anthropic 误删数千个 GitHub 仓库，试图撤回泄露的源代码

Anthropic在尝试从互联网上移除其热门产品Claude Code的源代码副本时，意外导致GitHub上约8100个代码仓库被下架。事件起因是一名软件工程师发现Anthropic在一次更新中意外包含了Claude Code的源代码，随后该代码被AI爱好者上传至GitHub。Anthropic依据美国数字版权法发出下架通知，但波及范围远超预期，包括其自身公开仓库的合法分支。公司随后承认操作失误，撤回大部分通知，仅保留对原始泄露仓库及其96个分支的下架要求，GitHub已恢复受影响仓库的访问权限。

Anthropic误删数千GitHub仓库源代码意外泄露引发连锁下架公司撤回大部分错误通知

来源

原文链接

查看原文 → View Original →

16 AI医疗工具层出不穷，实际效果究竟如何？

微软于本月早些时候在其Copilot应用中推出Copilot Health功能，用户可连接个人医疗记录并就健康问题提出具体询问。该功能旨在整合医疗数据与AI助手，提升患者对自身健康状况的理解与查询效率。目前尚处初期阶段，实际临床效果与数据安全性有待验证。此举反映科技巨头正加速布局医疗AI领域，推动个性化健康服务发展。

微软推出Copilot Health功能用户可连接医疗记录并提问科技巨头加速布局医疗AI

来源

原文链接
亚马逊近日宣布将其基于大语言模型的Health AI工具向更广泛用户开放，此前该工具仅限其One Medical服务会员使用。扩展使用范围可能提升基层医疗效率，辅助医生进行诊断建议与病历整理。然而，AI在医疗决策中的准确性与责任归属仍存争议。此次开放标志着亚马逊在医疗AI普惠化方向迈出关键一步。

亚马逊扩大Health AI使用范围原仅限One Medical会员使用医疗AI普惠化趋势显现

来源

原文链接

查看原文 → View Original →

17 转向AI模型定制是架构上的必然要求

大型语言模型（LLMs）早期迭代中，推理与编码能力常出现10倍级跃升，但如今性能提升已趋于平缓，仅表现为渐进式改进。然而，在特定领域专业化智能方面，仍持续出现跨越式进步。当模型与企业内部数据深度融合时，可在垂直场景中实现显著效能突破，这表明通用模型向定制化架构转型已成为技术发展的关键方向。

通用模型性能提升放缓领域专用模型仍具突破潜力企业数据融合驱动效能跃升

来源

原文链接

查看原文 → View Original →

18 助力亚洲救灾团队将人工智能转化为实际行动

OpenAI与比尔及梅琳达·盖茨基金会合作，在亚洲举办了一场关于人工智能在灾害响应中应用的研讨会。该活动旨在探讨如何利用AI技术提升灾害预警、资源调配和救援效率。OpenAI分享了其在自然语言处理和数据分析方面的能力，以支持应急响应团队快速获取关键信息。盖茨基金会强调，AI在应对气候变化引发的极端天气事件中具有潜在价值。此次合作标志着科技组织与国际发展机构在人道主义领域的进一步融合。

OpenAI与盖茨基金会合作聚焦亚洲灾害响应 AI提升预警与救援效率科技助力人道主义行动

来源

原文链接

（注：原文内容有限，未提及具体国家、实施项目或技术细节，以上摘要基于可用信息归纳。）

查看原文 → View Original →

19 OpenAI 收购 TBPN OpenAI acquires TBPN

OpenAI 收购 TBPN，旨在推动全球人工智能相关对话，并支持独立媒体发展。此次收购有助于 OpenAI 加强与开发者、企业以及更广泛科技社区的沟通与合作，促进 AI 技术的透明讨论与负责任应用。此举可能提升 OpenAI 在行业内的协作影响力，同时增强其对媒体生态的支持能力。详细信息有限，但表明 OpenAI 正通过资源整合扩大其生态参与度。

OpenAI 收购 TBPN 推动全球 AI 对话支持独立媒体发展

来源

原文链接

查看原文 → View Original →

20 谷歌Vids应用现支持通过提示词控制虚拟形象

Google为其视频编辑应用Vids新增多项功能，包括通过文本提示控制和定制虚拟形象、集成Veo 3.1视频生成模型、支持直接导出视频至YouTube，以及推出屏幕录制Chrome扩展。用户可使用自然语言指令让虚拟形象在场景中“表演”，如与产品或道具互动，系统保持角色一致性。虚拟形象可根据视频主题调整外观、服装和背景。Veo 3.1支持生成最长8秒的视频片段，普通用户每月可免费生成10次，Google AI Ultra和Workspace AI Ultra账户每月可生成多达1000次。导出至YouTube的视频默认为私密，便于用户审核后再公开。新增的Chrome扩展支持带音频或视频的屏幕录制。

文本控制虚拟形象表演 Veo 3.1支持8秒视频生成直接导出至YouTube Chrome扩展支持屏幕录制

来源

原文链接
Google持续为Vids添加功能，自2024年首次发布以来，重点服务企业内容创作。此前已引入AI虚拟形象并扩大消费者访问权限。2月新增2D与3D卡通风格虚拟形象，并扩展七种新语音旁白语言支持，包括法语、德语、意大利语、韩语、葡萄牙语、西班牙语和日语。此次更新进一步整合生成式AI能力，强化视频制作流程的自动化与个性化。

持续增强企业内容创作功能新增多语言语音旁白支持扩展虚拟形象风格类型整合生成式AI提升效率

来源

原文链接

查看原文 → View Original →

21 Claude Dispatch 与接口的力量

研究发现，尽管AI能力远超公众认知，但多数人通过聊天机器人（尤其是免费版本）与其交互，限制了实际工作效率。一项针对金融专业人士使用GPT-4o完成复杂估值任务的研究显示，尽管AI提升了生产力，但其界面设计（如大段文本、频繁建议新话题）显著增加了用户的认知负荷。对话一旦混乱便难以恢复，AI倾向于延续用户原有的无序结构，导致信息过载，尤其对经验较少的员工影响更大。

AI能力被界面限制聊天机器人增加认知负担新手员工受影响最严重

来源

原文链接

文章指出，当前AI应用中的“能力差距”主要源于交互方式而非技术本身。通用聊天界面不适合完成复杂工作任务，因其缺乏结构化信息呈现和任务管理能力。研究提出，优化AI效能的关键在于设计专用界面，针对特定任务定制交互流程，以减少用户认知负担并提升信息处理效率。

能力差距源于交互设计专用界面优于通用聊天结构化交互提升效率

来源

原文链接

查看原文 → View Original →

22 OpenAI 再启“支线任务”，收购科技主题脱口秀 TBPN

OpenAI以“数亿美元”收购科技访谈节目TBPN，标志着其在宣布专注核心业务后仍涉足媒体领域。TBPN自2024年10月推出以来，凭借主持人Jordi Hays和John Coogan对Meta创始人扎克伯格、OpenAI创始人奥特曼等科技领袖的专访，在硅谷初创企业及投资者中积累忠实受众。OpenAI产品负责人Fidji Simo表示，TBPN是当下围绕AI与开发者日常对话的重要平台，为技术与实践者提供了建设性交流空间。此举虽与其“放弃副业”的内部号召相悖，但可能意在强化行业话语权与生态影响力。

OpenAI收购科技访谈节目TBPN 交易金额达数亿美元 TBPN聚焦AI与开发者对话与专注核心业务战略存矛盾

来源

原文链接

查看原文 → View Original →

23 Meta的天然气消耗量足以供应整个南达科他州

Meta宣布为其位于路易斯安那州的Hyperion AI数据中心投资270亿美元，并计划建设10座天然气发电厂（新增7座，此前已承诺3座），总发电量约7.5吉瓦，相当于南达科他州的总电力容量。该数据中心建成后用电量将与该州相当。尽管Meta长期宣传其环保承诺，包括购买大量可再生能源和核能，但此次大规模投资天然气引发对其气候承诺的质疑。天然气虽被视为过渡能源，但近年来可再生能源成本大幅下降，而天然气设备价格上升，使该决策显得不合时宜。Meta未回应置评请求。

Meta投270亿建AI数据中心配套10座天然气电厂供电用电量堪比南达科他州环保承诺遭质疑

来源

原文链接
TechCrunch宣布将于2026年举办Disrupt大会，预计吸引超过1万名创始人、投资者和科技领袖参与，为期三天，包含250多场战术性会议、重要人脉对接和市场创新展示。活动旨在帮助参与者寻找下一轮融资、人才和突破机会。目前注册可享最高400美元优惠。

Disrupt 2026将聚集万名科技领袖设250余场会议与对接活动提供融资与人才对接机会早鸟注册最高省400美元

来源

原文链接
TechCrunch推出Founder Summit，面向超过1000名创始人，提供高端闭门交流机会。注册可享受最高300美元或30%的折扣。该活动聚焦深度行业洞察与创始人网络建设，具体议程和嘉宾信息尚未完全公布。

Founder Summit面向千名创始人提供高端闭门交流机会注册可享30%或300美元优惠详细信息有限

来源

原文链接

查看原文 → View Original →

24 五角大楼针对Anthropic的文化战争策略适得其反

美国加州一名法官于上周四暂时阻止了美国国防部将人工智能公司Anthropic列为供应链风险，并禁止政府机构使用其AI产品的决定。此举是围绕Anthropic长达一个月的争议的最新进展，此前五角大楼试图通过行政手段限制该公司在政府系统中的使用，理由是潜在的国家安全风险。法院的临时禁令表明，司法系统对政府单方面认定企业风险的做法持审慎态度，可能影响未来类似行政措施的合法性。该事件反映出AI企业在政府监管与国家安全审查之间面临的复杂环境。

法院暂阻国防部对Anthropic风险认定政府AI使用限制遭遇司法挑战国家安全与科技企业关系受关注

来源

原文链接

查看原文 → View Original →

25 我们正创建新的卫星图像地图以助力保护巴西森林。

Google与巴西政府合作，利用卫星图像技术开发地图，以协助保护巴西森林。该项目通过高精度遥感数据监测森林覆盖变化，旨在提升对非法砍伐和森林退化的识别能力。此举有助于加强环境执法和生态保护政策的实施，为亚马逊雨林等关键生态区域提供更及时的监管支持。该合作体现了科技企业在环境保护中的实际应用价值，可能推动更多国家采用类似技术手段进行自然资源管理。

Google与巴西政府合作保护森林利用卫星图像监测森林变化提升非法砍伐识别能力

来源

原文链接

查看原文 → View Original →

26 欢迎 Gemma 4：设备端前沿多模态智能

Google发布新一代开源多模态模型Gemma 4，支持图像、文本和音频输入，并生成文本响应。模型基于Apache 2.0许可，具备高质量表现，在基准测试中达到帕累托前沿水平。Gemma 4提供四种不同规模版本，涵盖2.3亿至310亿参数，均支持长上下文窗口（12.8万至25.6万token），并包含基础版与指令微调版。小型版本（E2B与E4B）额外支持音频输入。图像编码器支持可变宽高比与可配置图像token数量，优化速度、内存与质量平衡。

支持多模态输入输出四种规模适配不同场景开源许可便于商用部署图像编码支持灵活配置

来源

原文链接

Gemma 4在架构上延续Gemma系列设计，文本解码器基于原有Gemma模型，图像编码器在Gemma 3基础上改进，支持任意宽高比图像输入，并允许用户调节图像token数量以权衡性能与资源消耗。所有模型均支持图像或视频与文本的联合输入，小参数版本（E2B、E4B）进一步集成音频处理能力。模型提供基础与指令微调两种检查点，便于直接应用或二次开发。

图像编码支持任意宽高比可调节图像token优化性能小模型支持音频输入提供基础与微调版本

来源

原文链接

Gemma 4强调跨平台和设备部署能力，支持多种主流框架与运行环境，包括Hugging Face Transformers、llama.cpp、MLX、WebGPU及Rust等。该设计旨在降低开发门槛，使模型可在服务器、边缘设备及浏览器中运行。Google与开源社区合作推动广泛适配，鼓励开发者使用熟悉工具链进行集成与测试。

支持多框架部署可在设备端运行适配WebGPU与Rust 降低开发集成门槛

来源

原文链接

Gemma 4在预发布测试中表现出强泛化能力，部分场景下开箱即用效果优异，导致团队难以找到有效的微调样本。这表明模型在零样本或少样本任务中具备较高实用性，可能减少下游应用对标注数据的依赖。其多模态融合能力与高效架构设计，有望推动轻量化AI在移动与嵌入式场景的应用。

开箱即用性能突出减少微调数据需求推动轻量化AI落地多模态融合能力增强

来源

原文链接

查看原文 → View Original →

27 [AINews] 安静的愚人节 [AINews] A quiet April Fools

Arcee发布开源推理模型Trinity-Large-Thinking，采用Apache 2.0许可，面向开发者与企业用户，支持模型检查、本地部署、知识蒸馏与后训练。该模型总参数量达4000亿，激活参数130亿，在PinchBench中排名第二，仅次于Opus 4.6，并在Tau2-Airline和电信领域实现前沿水平表现。OpenRouter已将其集成上线。多家生态伙伴认为其标志着“美国开源”的重要进展，强调小团队以生产级成本实现大规模模型部署。

开源模型支持企业自主训练 400B总参数量13B激活多基准测试表现优异

来源

原文链接
Z.ai推出多模态编码模型GLM-5V-Turbo，支持图像、视频、文档布局和设计稿的原生处理，同时保持纯文本编码性能。技术改进包括原生多模态融合、新一代CogViT编码器、30余项任务的协同强化学习、合成代理数据生成以及多模态工具链扩展（如搜索、绘图、网页阅读）。该模型已快速接入TRAE、Tabbit和Vision Arena等平台。

支持多模态输入与编码保留文本编码稳定性已集成多个应用平台

来源

原文链接
Falcon发布Perception模型并更新OCR能力，具体技术细节与应用场景未充分披露，但提及与视觉感知相关的功能增强。信息有限，未说明性能基准或部署情况。

推出视觉感知模型 OCR功能同步更新详细信息有限

来源

原文链接

Mid-Tier Model Releases and April Fools Consideration
Several mid-tier AI models were released during the period of March 23–24, 2026, though most companies avoided major launches due to the timing coinciding with April Fools’ Day, which is widely regarded as a poor day for serious product announcements. Liquid AI received recognition for executing the most effective April Fools’ joke, though details of the prank were not specified. The AI news landscape remained relatively quiet, with monitoring efforts covering 12 subreddits, 544 Twitter accounts, and no additional Discord channels. AINews, now integrated as a section of Latent Space, continues to provide searchable archives of past issues and allows users to adjust email notification preferences. The subdued release cycle suggests strategic timing awareness among AI developers, prioritizing credibility over visibility during a day associated with pranks and misinformation.

Key Takeaways:
Most AI firms avoided major launches on April Fools’ Day
Liquid AI praised for best April Fools’ joke execution
AINews now part of Latent Space with customizable alerts
Monitoring covered 12 subreddits and 544 Twitter sources

Source: Original Article

Open-Weight Reasoning and Vision-Coding Model Releases
Arcee launched Trinity-Large-Thinking, a 400B total parameter model with 13B active parameters, released under the Apache 2.0 license to support open-weight development. The model is designed for enterprise and developer use, enabling inspection, hosting, distillation, and post-training. It achieved strong benchmark results, ranking #2 on PinchBench behind Opus 4.6, setting a state-of-the-art on Tau2-Airline, and delivering frontier-level performance in telecommunications. OpenRouter integrated the model immediately, highlighting its efficient architecture. Ecosystem partners, including Prime Intellect and Datology, emphasized its significance for American open-source AI, noting that a small team delivered production-grade performance at competitive costs.

Z.ai introduced GLM-5V-Turbo, a vision-coding model supporting images, videos, document layouts, and design drafts without compromising text-coding performance. Improvements stem from native multimodal fusion, an advanced CogViT encoder, collaborative reinforcement learning across 30+ tasks, synthetic agentic data, and multimodal toolchain extensions. The model was rapidly adopted in platforms like TRAE, Tabbit, and Vision Arena.

Falcon Perception and OCR developments were mentioned but lacked detailed information.

Key Takeaways:
Arcee’s Trinity-Large-Thinking offers open-weight, enterprise-ready reasoning
GLM-5V-Turbo enables multimodal coding with strong text retention
Small teams achieving high-impact model deployment at scale
Rapid integration of new models into developer ecosystems

Source: Original Article

查看原文 → View Original →

28 Granite 4.0 3B Vision：面向企业文档的紧凑型多模态智能

IBM发布Granite 4.0 3B Vision模型，专为处理企业文档中的视觉内容设计。该模型基于Granite 4.0 Micro语言模型，以LoRA适配器形式提供，支持模块化部署，可在纯文本任务中回退使用。其核心能力包括从文档图像中准确提取复杂表格结构、将图表转化为结构化数据或可执行代码，以及跨多种布局识别语义关键值对（KVP）。模型还可独立运行或与Docling结合，增强文档处理流程的视觉理解能力。

企业文档视觉理解新模型支持表格与图表结构化提取模块化设计便于集成部署

来源

原文链接

Granite 4.0 3B Vision的高性能源于三项关键技术投入：专为图表理解构建的数据集、改进的DeepStack架构实现高精度视觉特征注入，以及面向企业部署的模块化设计。其中，图表理解能力通过名为ChartNet的数据集实现，该数据集包含170万张合成图表，采用代码引导的数据增强方法生成，旨在提升模型对视觉模式、数值和自然语言的联合推理能力，尤其在需要空间精度的场景（如读取折线图具体数值）中表现更优。

图表理解依赖专用数据集 DeepStack架构增强视觉特征代码生成提升数据多样性

来源

原文链接

ChartNet是一个百万级多模态数据集，专为图表解释与推理任务构建，相关研究将在CVPR 2026发表。该数据集通过代码引导的合成流水线生成170万张多样化图表，涵盖多种类型与布局，用于训练模型理解图表中的视觉元素、数值信息和文本标注之间的复杂关系。这一方法弥补了现有视觉语言模型在空间精度和跨模态推理方面的不足，为提升企业文档自动化处理能力提供数据基础。

百万级图表数据集发布代码生成提升训练质量支持跨模态推理任务

来源

原文链接

IBM has introduced Granite 4.0 3B Vision, a compact multimodal AI model designed for enterprise document processing. The model specializes in extracting structured data from visual documents, including complex table parsing, chart interpretation, and semantic key-value pair (KVP) extraction across varied layouts. It operates as a LoRA adapter on Granite 4.0 Micro, a dense language model, enabling modular integration that supports both vision-language tasks and text-only fallbacks. This design allows seamless deployment in mixed processing pipelines. The model can function independently or alongside Docling to enhance document understanding with deep visual analysis. It also generates detailed natural-language descriptions of images, supporting tasks like image captioning. Detailed information on training data volume and benchmark results is limited.

Key Takeaways:
Granite 4.0 3B Vision enables accurate table and chart extraction from documents
Modular LoRA-based design supports flexible enterprise integration and text fallbacks
Model enhances document pipelines with vision-language understanding and image description

Source: Original Article

The development of Granite 4.0 3B Vision relied on three core innovations: a custom chart understanding dataset, an advanced DeepStack architecture variant, and a modular deployment-friendly design. A key component is ChartNet, a million-scale multimodal dataset created to improve chart interpretation. ChartNet uses a code-guided synthesis pipeline to generate 1.7 million diverse chart examples, enabling models to reason across visual patterns, numerical data, and text—particularly important for precise tasks like reading values from line charts. This approach addresses a known limitation in vision-language models (VLMs), which often struggle with spatial and numerical accuracy in charts. The dataset and methodology will be detailed in an upcoming CVPR 2026 paper. The architectural improvements allow high-detail visual feature injection, enhancing model precision.

Key Takeaways:
ChartNet dataset enables precise chart understanding through code-guided synthesis
DeepStack variant improves visual feature integration for accurate reasoning
Modular design ensures practical enterprise use with scalable performance

Source: Original Article

查看原文 → View Original →

29 Google Vids 获 Veo 和 Lyria 模型 AI 升级，支持可操控 AI 虚拟形象

Google对其视频编辑产品Vids进行了重大AI升级，整合了最新的视频模型Veo 3.1和音频模型Lyria。用户可使用可控AI虚拟形象生成视频，并更便捷地分享至YouTube。Veo 3.1此前已部署于Gemini，提升了视频的真实感与一致性。尽管Veo面向影视创作者，但Vids定位更偏向日常用途，如制作派对邀请函、企业宣传短片或电子贺卡。免费用户每月仅可生成10个视频，AI Pro订阅用户为50个，而AI Ultra用户可达1000个。生成视频长度为8秒，分辨率为720p。

Veo 3.1提升视频真实性与一致性 Vids支持AI虚拟形象与YouTube分享免费用户月限10个视频生成

来源

原文链接

Google将Lyria音乐生成模型集成至Vids工具中，用户无需输入歌词，仅需描述所需“氛围”，AI即可生成30秒或3分钟的音乐片段。该功能适用于制作生日贺卡等轻量内容，虽非高艺术性作品，但满足基础需求。与视频生成类似，音乐生成也受订阅等级限制，付费用户享有更高额度。此举扩展了Vids的多媒体创作能力，强化其在个人与企业轻量视频制作中的实用性。

Lyria支持氛围描述生成音乐音乐生成无需歌词输入订阅等级决定生成额度

来源

原文链接

查看原文 → View Original →

30 [AInews] Gemma 4：最佳小型多模态开源模型，全面超越 Gemma 3

Google DeepMind 发布 Gemma 4，作为其开源模型系列的重大升级，采用 Apache 2.0 许可，支持商业使用，显著优于前代 Gemma 3。该模型家族包含多模态能力，原生支持图像、视频和音频输入，适用于 OCR、图表理解及语音识别等任务。其中 31B 参数的密集模型在性能上可媲美 Kimi K2.5（744B-A40B）和 Z.ai GLM-5（1T-A32B）等超大规模模型，但参数量远少，架构效率更高。模型具备长上下文处理能力，并优化了本地与边缘设备部署，生态系统支持迅速展开。此次发布被视为在美国开源模型发展不确定性背景下的一大积极进展。

Gemma 4 性能显著提升支持多模态与本地部署 Apache 2.0 许可更开放

来源

原文链接

Gemma 4 的发布填补了美国开源模型领域近期的不确定性，特别是在 Allen Institute 人员突然离职及 GPT-OSS 项目陷入停滞的背景下。Google 通过提供更宽松的许可和更强的多模态能力，强化了其在开放模型竞争中的地位。模型在标准基准测试如 GPQA 和 AIME 上表现优异，且支持可变分辨率图像处理和原生音频输入（E2B 和 E4B 模型）。其高效架构引发业界对其可能用于苹果新一代 Siri 的推测，尽管尚无官方确认。整体来看，Gemma 4 推动了开源模型在推理、智能体工作流和终端设备应用方面的发展。

开源模型生态获重要补充多模态能力覆盖视听任务或影响苹果 Siri 技术路线

来源

原文链接

查看原文 → View Original →

31 最新开源成果（第20期）：新增组织！新型模型！涵盖Nemotron Super、Sarvam、Cohere Transcribe等

NVIDIA发布Nemotron-3-Super-120B-A12B-NVFP4模型，总参数量1200亿，激活参数120亿，支持百万上下文窗口及多语言。该模型基于LatentMoE架构，并在预训练阶段首次采用NVFP4量化技术，为开源模型中的首创。NVIDIA同步公开了技术报告、预训练与后训练数据集，大部分数据为开源发布。该模型填补了中大型开源模型的空缺，展示了高效架构与量化技术在降低计算成本方面的潜力，对推动轻量化高性能模型发展具有示范意义。

NVIDIA发布1200亿参数开源模型首次应用NVFP4量化技术支持百万上下文与多语言

来源

原文链接

CohereLabs推出cohere-transcribe-03-2026语音转文本模型，基于conformer架构，与NVIDIA Parakeet类似。该模型具备14种不同配置或语言支持（原文未完整说明具体细节），专注于高精度音频转录任务。作为开源语音模型的新参与者，其发布丰富了开源语音处理工具生态，尤其为多语言转录场景提供新选择，有助于推动语音技术在边缘设备与低资源环境中的应用。

Cohere发布conformer架构转录模型支持14种配置或语言强化开源语音处理能力

来源

原文链接

本期开源模型汇总涵盖OCR、RAG搜索、音频转录、计算机操作、代码编辑、数学定理证明等多种应用场景，模型来源广泛，不再集中于少数大厂。相比以往以Qwen、DeepSeek等为主的趋势，此次更多中小型组织参与模型开发，体现出开源生态的多样性与专业化趋势。该现象表明行业正从追求单一强模型转向构建领域专用、低成本模型，以补充闭源大模型，推动技术普惠与垂直应用落地。

开源模型覆盖多模态多任务中小组织参与度显著提升领域专用模型成新趋势

来源

原文链接

查看原文 → View Original →

32 Show HN：SkillCompass——从6个维度诊断并提升AI智能体技能

SkillCompass 是一个面向 Claude Code 和 OpenClaw 的评估驱动型技能演进引擎。它从结构、触发、安全、功能、对比和独特性六个维度对技能进行评分，识别最薄弱的环节并进行修复，随后转向下一个最弱项。该系统还能检测模型改进是否使某项技能变得冗余。工具在本地运行，依赖 Node.js v18 及以上版本以支持本地验证器。该工具旨在通过持续迭代优化代码能力，提升模型在实际应用中的表现。

六维度评估技能表现自动修复最薄弱环节本地运行需Node.js支持

来源

原文链接

查看原文 → View Original →

33 猎鹰感知 Falcon Perception

Falcon Perception 是一款参数规模为0.6B的早期融合Transformer模型，支持基于自然语言提示的开放词汇目标定位与分割。该模型将图像块与文本输入统一处理为单一序列，采用混合注意力掩码机制，并通过轻量级输出头生成可变数量的实例。在SA-Co基准测试中，其Macro-F1得分达68.0，优于SAM 3的62.3，主要差距体现在存在性校准（MCC 0.64 vs 0.82）。研究团队还推出了PBench诊断基准，从属性识别、OCR引导消歧、空间约束和关系理解等能力维度，以及密集长上下文复杂场景下评估模型表现。

早期融合架构提升感知效率开放词汇分割性能优于SAM 3 PBench细化多维度能力评估

来源

原文链接
Falcon OCR 是一款参数为0.3B的OCR模型，在olmOCR基准测试中得分80.3，在OmniDocBench上达88.6分，同时具备目前开源OCR模型中最高的处理吞吐量。该模型设计注重效率与精度平衡，适用于大规模文档解析任务。其高性能表明轻量化架构在OCR任务中具备竞争力，尤其适合资源受限环境部署。

轻量模型实现高精度OCR 吞吐量领先同类开源模型适用于高效文档处理场景

来源

原文链接
当前多数开放词汇感知系统采用模块化流水线设计，包括独立的视觉主干、融合/解码模块及后处理组件。这种架构虽有效，但存在扩展困难、改进归因不明确和复杂度累积等问题。研究团队提出简化思路：是否可通过单一早期融合Transformer主干，结合合适的注意力模式、输出接口和训练信号，统一处理感知与语言建模任务。实验表明该路径基本可行，为简化多模态系统设计提供了新方向。

模块化流水线存在扩展瓶颈早期融合架构具备统一潜力简化设计有助于系统优化

来源

原文链接

Falcon Perception is a 0.6-billion-parameter early-fusion Transformer model designed for open-vocabulary grounding and segmentation using natural language prompts. Unlike traditional modular perception pipelines that separate vision and language processing, Falcon Perception integrates image patches and text into a single sequence processed through a hybrid attention mechanism. This architecture enables joint modeling of visual and linguistic inputs from the outset. The model outputs variable numbers of segmented instances via a lightweight token interface and structured output heads. On the SA-Co benchmark, it achieves a Macro-F1 score of 68.0, outperforming SAM 3 (62.3), though it lags in presence calibration (MCC 0.64 vs. 0.82). The team also introduced PBench, a diagnostic benchmark evaluating performance across capabilities such as attribute recognition, OCR-guided disambiguation, spatial reasoning, and handling dense, crowded scenes. Falcon Perception demonstrates that early fusion can simplify architecture while maintaining competitive performance, suggesting a shift away from complex, multi-stage pipelines. Detailed information on training data and scalability is limited.

Key Takeaways:
Early-fusion design improves integration of vision and language tasks
Falcon Perception outperforms SAM 3 on SA-Co benchmark
PBench enables detailed evaluation of perception capabilities
Simplified architecture reduces complexity of open-vocabulary systems

Source: Original Article

Falcon OCR is a 0.3-billion-parameter model focused on optical character recognition, achieving scores of 80.3 on the olmOCR benchmark and 88.6 on OmniDocBench. It achieves the highest throughput among open-source OCR models, emphasizing efficiency and speed. The model is part of the broader Falcon Perception initiative, reflecting a design philosophy centered on unified, efficient architectures. While specific architectural details are not fully disclosed, its performance highlights the effectiveness of streamlined models for specialized tasks. The release underscores a trend toward high-performance, lightweight models in document understanding. Detailed information on training methodology and real-world deployment is limited.

Key Takeaways:
Falcon OCR leads in throughput among open-source models
High accuracy on standard OCR benchmarks
Lightweight design supports efficient deployment
Part of a broader shift toward unified perception systems

Source: Original Article

查看原文 → View Original →

34 Holo3：突破计算机使用边界

Holo3 在 OSWorld-Verified 基准测试中得分 78.85%，成为当前桌面计算机使用领域性能最优的模型，刷新行业纪录。该模型专为实际生产环境设计，基于“代理学习飞轮”训练机制，能够在合成企业环境中执行真实工作流程。Holo3 仅使用 100 亿活跃参数（总参数量 1220 亿），显著低于 GPT-5.4 或 Opus 4.6 等大型专有模型，实现高效低成本运行。模型通过推理 API 提供，其中 Holo3-35B-A3B 权重已在 Hugging Face 以 Apache 2.0 许可开源，并支持免费层级访问。

Holo3 刷新计算机使用基准纪录专为生产环境设计，支持企业工作流参数效率高，成本显著低于同类模型

来源

原文链接

Holo3 的核心优势源于其“代理学习飞轮”训练管道，该机制通过持续反馈循环强化感知与决策两大能力。训练过程结合人工标注与生成指令，构建场景化导航数据，提升任务执行精度。通过“域外增强”技术，系统程序化扩展训练场景，增强模型应对未知界面的能力。所有数据样本均经过严格筛选，并引入强化学习优化流程，确保模型在复杂数字环境中具备强泛化能力。该方法不仅提升基准表现，更为未来实现全自主数字环境导航奠定基础。

采用代理学习飞轮提升感知与决策能力合成数据与域外增强提升泛化性能强化学习优化训练流程

来源

原文链接

查看原文 → View Original →

35 Import AI 451：政治超级智能；谷歌的“心智社会”与机器人鼓手

斯坦福大学政治经济学教授安迪·霍尔提出，随着AI能力增强并扩展至政治领域，可能催生“政治超级智能”——即帮助公民、代表和机构更清晰认知现实、理解权衡、挑战权力并有效行动的系统。他认为AI类似印刷术，使智能变得廉价且易获取，若加以正确引导，可让全球每个人获得政治层面的智能支持。实现这一目标不仅依赖技术进步，更需构建相应社会结构与制度。霍尔强调不应减缓AI发展，而应加快建立保障自由的制度框架。

AI可提升政治参与效率需配套制度保障自由政治超级智能涵盖技术与机构

来源

原文链接

谷歌提出“心智社会”概念，探索多AI代理协作模拟人类认知。该框架通过多个专业化AI模块协同工作，模仿人脑不同功能区，以增强复杂任务处理能力。研究显示，此类系统在多轮对话、逻辑推理和知识整合方面表现优于单一大型模型。尽管仍处于实验阶段，但该方法为构建更灵活、可解释的AI系统提供新路径，可能影响未来AI架构设计方向。

多代理协作模拟人类认知提升复杂任务处理性能推动可解释AI架构发展

来源

原文链接

研究人员开发出一款能实时演奏的机器人鼓手，结合计算机视觉与强化学习技术，可根据音乐节奏自动调整击打力度与时机。该系统在爵士乐即兴演奏测试中表现出与人类乐手相当的同步能力。该项目展示了AI在创造性艺术领域的应用潜力，也为人机协作表演开辟新可能，但商业化落地仍需解决成本与可靠性问题。

机器人鼓手实现实时演奏具备音乐节奏同步能力推动人机艺术协作探索

来源

原文链接

查看原文 → View Original →

36 SpaceX试图说服FCC：亚马逊卫星部署高度不当

SpaceX指控亚马逊违反轨道碎片管理规定，称其将Kuiper卫星发射至未经批准的初始高度（比许可高出50-90公里），增加了与Starlink卫星及其他航天器碰撞的风险。SpaceX指出，此举未进行充分协调，构成“不可缓解的碰撞风险”。亚马逊否认违规，称发射参数已向FCC报备，并强调去年使用SpaceX发射时，后者也曾将卫星送入相似高度。双方长期在FCC程序中相互阻挠对方发射计划，此次争议发生在SpaceX调整Starlink轨道至邻近区域之后。

SpaceX指控亚马逊违反轨道安全规定发射高度超出许可范围50-90公里双方长期在FCC相互阻挠发射亚马逊称参数已报备且曾合作发射

来源

原文链接

亚马逊回应称，其Kuiper卫星的初始部署高度符合安全标准，并未违反任何监管要求。公司强调已向FCC明确通报发射参数，且去年与SpaceX合作发射时，后者也曾将卫星送入相近轨道，未提出异议。亚马逊指出，SpaceX仅在自身Starlink卫星调整至邻近轨道后才提出反对，若更改发射计划将导致数月延误。双方长期利用FCC审批程序互相拖延对方项目进展，反映出低轨卫星频段与轨道资源竞争日益激烈。

亚马逊否认违反轨道安全规定发射参数已向FCC报备 SpaceX曾协助发射至相似高度双方长期利用FCC程序相互拖延

来源

原文链接

SpaceX近期报告两颗Starlink卫星失效并产生新的太空碎片，加剧了行业对轨道安全的关注。在此背景下，SpaceX向FCC提交文件，指控亚马逊未遵守其获批的轨道碎片减缓计划，擅自提高卫星初始部署高度，且未进行必要的信息共享。SpaceX警告此举将显著增加与其他运行系统及载人航天器的碰撞风险。尽管亚马逊辩称操作合规，但争议凸显低轨卫星大规模部署背景下，轨道协调与监管执行面临严峻挑战。

Starlink卫星失效产生新太空碎片 SpaceX指控亚马逊未遵守减缓计划初始高度提升增加碰撞风险低轨卫星协调机制面临压力

来源

原文链接

查看原文 → View Original →

37 雌性激素引导雄性章鱼完成交配

哈佛大学分子生物学家Pablo S. Villar领导的研究团队首次系统研究了章鱼（Octopus bimaculoides）的交配行为。由于章鱼为独居生物，深海环境中相遇频率极低，其交配机制长期缺乏科学观察。研究通过将一对野生加州双斑章鱼置于有隔离屏障的水族箱中进行实验，避免潜在攻击行为。雄性使用特化的交接腕（hectocotylus）传递精荚，此前相关细节多依赖零散观察，缺乏实证数据。该研究为理解头足类动物繁殖行为提供了首个受控实验证据。

首次实验观察章鱼交配行为使用隔离屏障防止攻击雄性用交接腕传递精荚填补繁殖机制研究空白

来源

原文链接
研究揭示雌性章鱼在交配过程中释放化学信号引导雄性行为。实验中，雄性在感知雌性释放的激素后，主动接近并尝试交配，表明化学通讯在章鱼繁殖中起关键作用。这一发现挑战了此前认为章鱼交配仅依赖视觉与触觉的假设。科学家推测此类激素可能帮助雄性识别配偶状态，减少攻击风险。该机制或为其他头足类动物共有的繁殖策略，对理解无脊椎动物社会行为演化具有重要意义。

雌性释放激素引导交配化学信号主导求偶行为减少雄性间攻击风险拓展无脊椎动物通讯认知

来源

原文链接
章鱼拥有高度分散的神经系统，约三分之二神经元分布于八条腕足中，使每条腕足具备独立感知与决策能力。其血液含铜基蛋白呈蓝色，依赖三个心脏泵送。此外，章鱼能快速改变皮肤颜色与质地以伪装或交流。这些独特生理特征使其成为研究神经生物学与适应性进化的理想模型。此次交配研究进一步凸显其行为复杂性，提示中枢与外周神经系统在繁殖行为中的协同作用。

神经元主要分布于腕足具备独立感知决策能力三心脏驱动蓝色血液生理结构支持行为复杂性

来源

原文链接

查看原文 → View Original →

38 AI基准测试已失效，我们需要新的方案。

当前人工智能评估体系长期依赖“机器是否超越人类”的单一标准，涵盖国际象棋、高等数学、编程和文章写作等任务。这种以人类表现为基准的测试方式虽具直观吸引力，但存在明显局限。它聚焦于孤立任务中的胜负对比，忽视了AI在实际应用场景中的协作能力、泛化性能与伦理影响。随着AI系统日益复杂，此类基准已难以全面反映技术价值，尤其在多模态、持续学习和人机协同等新兴领域表现不足。行业逐渐意识到需构建更综合、动态且贴近现实的评估框架。

AI评估过度依赖人机对比现有基准忽略实际应用场景需建立更全面评估体系

来源

原文链接

（注：原文内容不完整，信息有限，摘要基于可提取内容归纳。）

查看原文 → View Original →

39 Ask HN：Canirun.ai 怎么了？ Ask HN: What Happened to Canirun.ai?

canirun.ai工具曾于21天前在Hacker News上被讨论，但目前该工具已无法访问，网站处于离线状态。尽管此前引发一定关注，但缺乏后续更新或维护迹象，表明项目可能已停止运营或遭遇技术问题。由于缺乏官方说明，具体下线原因尚不明确，反映出部分AI工具在发布后缺乏持续支持的问题。该事件提醒开发者关注项目可持续性与用户可访问性。
关键要点：
工具曾受关注现已离线
缺乏维护致服务中断
项目可持续性存疑
详细信息有限

来源

原文链接

查看原文 → View Original →

40 某安全聊天应用的加密技术形同虚设

TeleGuard是一款自称具备端到端加密功能的安全通讯应用，下载量超百万次。然而，多位安全研究人员指出，其加密实现存在严重缺陷，攻击者可轻易获取用户私钥并解密消息。此外，TeleGuard将用户私钥上传至公司服务器，意味着平台自身也能解密用户通信内容。研究人员还发现，通过拦截用户网络流量，可部分推导出私钥。尽管其官网宣称“无数据存储”“高度加密”“瑞士制造”，实际安全性远未达标。

TeleGuard加密实现存在严重漏洞私钥上传服务器致平台可解密消息流量拦截可部分推导用户私钥

来源

原文链接

查看原文 → View Original →

41 Axios供应链攻击采用针对性社会工程学手段

Axios团队发布了一份关于近期供应链攻击的完整事后分析报告。攻击导致一个包含恶意代码的依赖项被发布到正式版本中。此次攻击通过高度定制化的社会工程手段实施，针对一名核心维护者进行精准钓鱼。攻击者伪装成某公司创始人，克隆其身份与公司信息，并邀请受害者加入一个仿冒的Slack工作区。该工作区设计逼真，包含品牌化界面、合理命名的频道、LinkedIn动态分享以及伪造团队成员资料，甚至混入其他开源项目维护者以增强可信度。随后通过Microsoft Teams安排会议，谎称受害者系统存在安全漏洞，诱导其安装恶意软件。

攻击者克隆公司创始人身份仿冒Slack工作区高度逼真通过Teams会议诱导安装恶意软件

来源

原文链接

查看原文 → View Original →

42 “话匣子先生”是一款（性能较弱的）维多利亚时代伦理训练模型，可本地运行

Trip Venturella发布了一款名为Mr. Chatterbox的语言模型，该模型完全基于大英图书馆提供的19世纪英国版权过期文本训练而成。训练数据涵盖1837年至1899年间出版的28,035本维多利亚时代书籍，经筛选后形成约29.3亿个输入词元。模型参数约为3.4亿，规模与GPT-2-Medium相近，但所有训练数据均早于1900年，未使用任何现代或受版权保护的内容。此举展示了在不依赖大规模网络爬取数据的前提下训练语言模型的可行性，对推动开放、合规的AI训练具有积极意义。模型体积仅2.05GB，用户可通过HuggingFace Spaces在线试用。

基于19世纪文本训练参数约3.4亿体积仅2.05GB 支持在线试用

来源

原文链接

查看原文 → View Original →

43 科学家培育出可同时产生死藤水、迷幻蘑菇和蟾蜍致幻成分的植株

科学家通过基因工程改造烟草植物，使其同时产生五种天然存在于迷幻蘑菇、死藤水和沙漠蟾蜍中的致幻化合物，包括裸盖菇素（psilocybin）、二甲基色胺（DMT）等色胺类物质。该研究发表于《科学进展》期刊，利用植物生物合成路径实现多种精神活性物质的集中生产。研究人员强调，该技术旨在推动医学应用，而非娱乐用途，未来或可扩展至番茄等作物，实现微量致幻剂的可控摄入。研究团队来自魏茨曼科学研究所，指出此类植物应仅限于临床环境使用。

烟草植物被改造生产五种致幻化合物技术目标为医学用途而非娱乐未来或应用于番茄等作物实现微量摄入

来源

原文链接

该研究首次实现单一植物同时合成多种致幻色胺类物质，包括来自不同自然来源的活性成分。研究人员表示，这种组合此前未被尝试，具有潜在治疗价值，可用于抑郁症、焦虑症、情绪障碍和创伤后应激障碍等疾病。由于全球对致幻剂作为治疗手段的需求上升，传统提取方式面临可持续性与规模化挑战，植物生物合成提供了一种更可控的生产路径。尽管法律监管差异大，但科学界正推动其在受控医疗环境中的应用。

首次实现植物多致幻物同步合成目标治疗精神类疾病植物合成解决传统提取瓶颈

来源

原文链接

查看原文 → View Original →

44 Perplexity“隐身模式”被指为“骗局”，遭诉讼指控

美国一名匿名用户约翰·多伊对Perplexity、Google和Meta提起集体诉讼，指控Perplexity的AI搜索引擎在用户不知情或未同意的情况下，将完整聊天记录共享给Google和Meta。诉讼称，无论用户是否注册账户，其初始提问及后续点击的追问均被传输，且非注册用户的对话可通过URL被第三方访问。更严重的是，即使用户启用“隐身模式”，其对话仍与个人身份信息（PII）一同被共享，该模式被指控为虚假宣传。

Perplexity被诉未经同意共享用户对话隐身模式未能阻止数据外泄非注册用户隐私风险更高诉讼指控违反隐私法律

来源

原文链接

诉讼指出，Perplexity使用Google和Meta的广告追踪技术，将包含财务、健康等敏感信息的聊天记录传输给这两家公司，涉嫌违反州和联邦隐私法。原告将此类追踪技术比作“基于浏览器的窃听技术”，强调用户未被告知其数据被秘密收集。诉讼指控三家公司优先考虑商业利益，侵犯用户隐私权，并要求对受影响用户进行赔偿。

敏感信息被传输至广告平台用户未获知数据追踪行为涉嫌违反多项隐私法规集体诉讼寻求经济赔偿

来源

原文链接

查看原文 → View Original →

45 Show HN：HN 浏览器扩展“评论猫头鹰”现可隐藏明显的“AI”内容

Comments Owl for Hacker News 浏览器扩展新增功能，允许用户在主条目列表页面通过右键菜单或移动端扩展弹窗，一键过滤标题和来源网站中包含“AI”关键词的帖子。该功能基于可编辑的正则表达式实现，已在过去一周的页面内容中进行测试，旨在帮助用户减少信息过载。扩展主要功能仍是追踪评论线程和未读评论，同时提供静音用户、标记用户及移动端界面优化等辅助功能。

新增AI内容过滤功能支持右键菜单与移动端操作基于正则表达式实现过滤

来源

原文链接

查看原文 → View Original →

46 TRL v1.0：紧跟领域发展的训练后库

TRL v1.0 发布，作为面向快速演进领域的后训练库，集成了超过75种后训练方法。其设计并非预先规划，而是经过六年迭代形成，适应了算法、模型和范式的持续变化。库的结构虽初看非常规，但源于实际压力下的演化，旨在解决在假设不断被推翻的领域中构建稳定软件的挑战。重点在于提升方法的可试用性、可比较性和实用性，而非单纯追求覆盖广度。

集成超75种后训练方法六年迭代形成稳定架构适应算法范式快速变化

来源

原文链接

后训练领域呈现非线性的演进路径，经历多个重心转移。PPO方法曾确立包含策略模型、参考模型、奖励模型和强化学习循环的标准架构。随后DPO、ORPO和KTO等方法证明偏好优化可无需独立奖励模型或在线强化学习，使原有组件变为可选。RLVR类方法如GRPO再次转变重心，在数学、代码等任务中依赖验证器或确定性检查生成奖励，重新强调采样与轨迹生成，但循环中的对象已发生变化。

后训练范式多次重心转移 DPO类方法简化模型依赖 GRPO依赖验证器生成奖励

来源

原文链接

查看原文 → View Original →

47 记者起诉美国联邦航空管理局，抗议为阻止拍摄移民海关执法局活动而设无人机禁飞区

明尼苏达州摄影记者罗布·莱文（Rob Levine）与“记者新闻自由委员会”（Reporters Committee for Freedom of the Press）联合起诉美国联邦航空管理局（FAA），抗议其于2024年1月发布的一项临时飞行限制（TFR）。该禁令禁止无人机在国土安全部（DHS）设施及移动资产3000英尺范围内飞行，涵盖移民与海关执法局（ICE）人员使用的车辆。由于ICE车辆常为无标识民用车或伪装车辆，且分布广泛，该限制被指控无法实际执行，并侵犯记者第一修正案权利。莱文称，在明尼阿波利斯“大都会行动”期间，数千名DHS人员遍布城市，导致其无法安全飞行无人机，被迫停飞。

记者起诉FAA无人机禁飞令禁飞范围涵盖DHS移动资产限制被指侵犯新闻自由实际操作中难以合规

来源

原文链接

查看原文 → View Original →

48 从 RTX 到 Spark：英伟达加速 Gemma 4 本地智能体 AI

谷歌推出Gemma 4系列新模型，专为本地设备高效运行设计，支持在终端设备上实现快速、多功能的AI推理。这些模型属于轻量级架构，强调低延迟与高能效，适用于手机、边缘设备等资源受限环境。其核心优势在于无需依赖云端即可处理复杂任务，提升数据隐私与响应速度。此举顺应了AI向本地化部署发展的趋势，推动实时上下文感知应用的发展，如个性化助手与离线语音识别。

Gemma 4支持本地高效运行轻量设计适配边缘设备推动终端AI实时应用

来源

原文链接

（注：原文内容不完整，信息有限，摘要基于现有内容归纳。）

查看原文 → View Original →

49 四名宇航员现已注定奔赴月球

NASA的猎户座飞船于周四成功启动主发动机，持续燃烧5分50秒，将四名宇航员送入绕月自由返回轨道。此次“地月转移注入”燃烧标志着任务进入不可逆阶段，飞船将在周一飞掠月球，利用月球引力弹回地球，并于4月10日在太平洋溅落。这是自1972年阿波罗计划结束后，人类首次离开近地轨道，全球约四分之三人口未曾亲历此类任务。任务发射于周三由太空发射系统火箭完成，主发动机此次燃烧为最后一次重大点火。

猎户座飞船完成关键发动机点火四名宇航员进入绕月飞行轨道任务标志人类重返深空里程碑

来源

原文链接

猎户座飞船在任务首日进行了密集系统测试，四名宇航员——里德·怀斯曼、维克多·格洛弗、克里斯蒂娜·科赫和杰里米·汉森——验证了生命支持与推进系统的可靠性。NASA官员霍华德·胡表示，二氧化碳清除装置和水循环系统运行良好。唯一问题是马桶初始注水不足导致泵无法启动，补充水后恢复正常。NASA探索部门高级官员洛里·格蕾斯称当前进展顺利，团队非常满意。

生命支持系统运行稳定马桶故障经处理已修复宇航员完成深空任务准备

来源

原文链接

查看原文 → View Original →

50 我在 Lenny 播客中关于智能体工程的对话亮点

AI发展拐点已过，自动化进程加速
在Lenny Rachitsky的播客节目中，嘉宾指出AI发展已越过关键拐点，进入加速阶段。讨论认为，软件工程师作为信息工作者的风向标，其工作效率因AI工具显著提升，预示着其他知识型岗位也将经历类似变革。自动化不再局限于制造业，正向白领工作渗透，未来可能出现“暗工厂”——即无需人工干预的全自动生产系统。这一趋势将重塑劳动力结构，推动企业重新评估人力配置与技术投资。

AI发展拐点已过软件工程师引领变革暗工厂模式将普及

来源

原文链接
软件工程师成为信息工作者转型的先行者
节目中强调，软件工程师因广泛使用AI编程工具（如GitHub Copilot）而成为其他信息岗位的转型标杆。他们的工作流程已深度整合AI辅助，显著提升代码生成与调试效率。这一变化预示着律师、分析师、设计师等依赖信息处理的职业也将面临类似工具驱动的效率跃升。行业需关注技能重构与职业路径调整，以应对AI带来的结构性变化。

软件工程师率先应用AI 信息岗位效率将普遍提升职业结构面临重构

来源

原文链接
移动端编程成为现实，开发场景进一步拓展
嘉宾分享了在手机上编写代码的实际体验，表明轻量级AI编程工具已支持移动端开发。尽管屏幕尺寸与输入方式受限，但借助语音输入与AI补全，基础编码任务可在移动场景完成。这一进展降低了开发门槛，使编程更灵活，尤其适用于远程协作与即时原型设计，推动开发民主化进程。

手机编程已具备可行性 AI补全克服输入限制开发场景更加灵活

来源

原文链接
“氛围编码”兴起，强调负责任的AI使用
“氛围编码”（vibe coding）指开发者依赖AI生成代码时更注重整体逻辑与意图表达，而非逐行编写。嘉宾强调需保持责任意识，避免盲目信任AI输出。讨论呼吁建立审查机制，确保代码安全、可维护与合规。这一趋势反映开发范式转变，同时对AI工具的透明度与可解释性提出更高要求。

氛围编码依赖AI生成需加强代码审查机制 AI透明度亟待提升

来源

原文链接
暗工厂模式兴起，StrongDM推动基础设施自动化
“暗工厂”指高度自动化、无需人工值守的生产或运维环境。嘉宾以StrongDM为例，说明其通过自动化权限管理与系统监控，实现IT基础设施的“无人化”运维。该模式提升安全性与效率，减少人为错误，预示未来数据中心、制造产线将向全自动化演进，对运维岗位提出更高技能要求。

暗工厂实现无人运维 StrongDM推动自动化运维岗位技能升级

来源

原文链接
软件开发瓶颈转移至测试环节
随着AI大幅提升代码生成速度，开发流程的瓶颈已从编写转向测试与验证。嘉宾指出，当前AI生成的代码仍需大量人工测试以确保质量与安全性。自动化测试工具尚未完全跟上生成速度，导致测试成为新瓶颈。行业需加强AI测试框架研发，以实现端到端自动化开发闭环。

代码生成速度超越测试测试成为新瓶颈需发展AI测试工具

来源

原文链接
AI开发节奏过快，从业者面临身心压力
嘉宾坦言，AI技术迭代速度令人疲惫，持续学习新工具与适应变化带来显著心理负担。快速演进的环境使开发者难以保持长期专注，可能影响创新与工作质量。行业需关注从业者福祉，建立可持续的学习与支持机制，避免人才 burnout。

技术迭代速度过快开发者面临身心压力需建立支持机制

来源

原文链接

查看原文 → View Original →

51 Show HN：Wazear —— 一款支持智能体相互审查的可视化 AI 编排工具

开发者推出名为Wazear的视觉化AI编排工具，允许用户构建类似软件开发生命周期（SDLC）的AI工作流。用户可创建项目、提交需求简报，并配置多个角色化AI代理（如规划师、架构师等），设定代理间的协作与审核关系。系统支持在流程中随时暂停以人工审查输出结果，提升可控性与透明度。该工具旨在简化复杂AI任务的协调管理，适用于需要多阶段推理与验证的场景。目前产品已上线，开发者公开征求用户反馈以优化体验。

AI工作流可视化编排工具上线支持多角色代理协作与审核机制用户可中途干预审查输出结果

来源

原文链接

查看原文 → View Original →

52 规模化效率：NVIDIA与能源领军企业加速构建灵活供电的AI工厂，助力电网稳定

在CERAWeek能源会议上，NVIDIA与Emerald AI联合提出将AI工厂视为灵活、智能的电网资产，而非静态电力负荷。这一合作旨在优化AI数据中心与电网之间的互动，提升能源使用效率，并支持电网稳定性。通过动态调整AI计算负载以响应电网需求，该技术可帮助平衡电力供需，减少高峰时段压力，推动能源系统向更可持续方向转型。此举标志着AI基础设施在能源管理中的角色从被动用电方转向主动调节者。

AI工厂作为智能电网资产动态调节计算负载响应电网提升能源效率与电网稳定性

来源

原文链接

查看原文 → View Original →

53 4月启动：GeForce NOW 将10款游戏带入云端

本周GeForce NOW新增多款游戏，包括卡普空备受期待的《PRAGMATA》正式上线，以及《明日方舟：终末地》等12款新作加入云端游戏库。此次更新为订阅用户提供了更丰富的游戏选择，涵盖动作、策略与角色扮演等多种类型，进一步扩展了云游戏平台的内容生态。新游戏的加入有助于提升用户活跃度与平台吸引力，尤其在跨平台串流体验优化的背景下，推动云游戏普及。

新增12款游戏上线《PRAGMATA》正式登陆平台《明日方舟：终末地》加入串流丰富云游戏内容生态

来源

原文链接

查看原文 → View Original →

01 使用Veo 3.1 Lite构建，我们最具成本效益的视频生成模型 Build with Veo 3.1 Lite, our most cost-effective video generation model

02 Gemma 4：逐字节对比，性能最强的开源模型 Gemma 4: Byte for byte, the most capable open models

03 微软推出三款新基础模型挑战AI对手 Microsoft takes on AI rivals with three new foundational models

04 Gradient Labs 为每位银行客户提供 AI 客户经理 Gradient Labs gives every bank customer an AI account manager

05 2026年3月发布的最新AI新闻 The latest AI news we announced in March 2026

06 OpenAI收购热门创始人主导的商业脱口秀TBPN OpenAI acquires TBPN, the buzzy founder-led business talk show

07 [AI新闻] 科技行业仅剩的4类岗位 [AINews] The Last 4 Jobs in Tech

08 在 Google Vids 中免费创建、编辑和分享视频 Create, edit and share videos at no cost in Google Vids

09 [AINews] Claude 代码源码泄露 [AINews] The Claude Code Source Leak

10 加速AI下一阶段发展 Accelerating the next phase of AI

11 Codex 现为团队提供更灵活的定价方案 Codex now offers more flexible pricing for teams

12 在 Gemini API 中平衡成本与可靠性的新方法 New ways to balance cost and reliability in the Gemini API

13 Moonlake：因果世界模型应具备多模态、交互性和高效性 —— 对话 Chris Manning 与 Fan-yun Sun Moonlake: Causal World Models should be Multimodal, Interactive, and Efficient — with Chris Manning and Fan-yun Sun

14 Reddit 的 r/programming 板块已禁止所有与 AI 大语言模型相关的内容 R/programming on Reddit just banned all content related to AI LLMs

15 Anthropic 误删数千个 GitHub 仓库，试图撤回泄露的源代码 Anthropic took down thousands of GitHub repos trying to yank its leaked source code — a move the company says was an accident

16 AI医疗工具层出不穷，实际效果究竟如何？ There are more AI health tools than ever—but how well do they work?

17 转向AI模型定制是架构上的必然要求 Shifting to AI model customization is an architectural imperative

18 助力亚洲救灾团队将人工智能转化为实际行动 Helping disaster response teams turn AI into action across Asia

19 OpenAI 收购 TBPN OpenAI acquires TBPN

20 谷歌Vids应用现支持通过提示词控制虚拟形象 Google now lets you direct avatars through prompts in its Vids app

21 Claude Dispatch 与接口的力量 Claude Dispatch and the Power of Interfaces

22 OpenAI 再启“支线任务”，收购科技主题脱口秀 TBPN OpenAI takes on another "side quest," buys tech-focused talk show TBPN

23 Meta的天然气消耗量足以供应整个南达科他州 Meta’s natural gas binge could power South Dakota

24 五角大楼针对Anthropic的文化战争策略适得其反 The Pentagon’s culture war tactic against Anthropic has backfired

25 我们正创建新的卫星图像地图以助力保护巴西森林。 We’re creating a new satellite imagery map to help protect Brazil’s forests.

26 欢迎 Gemma 4：设备端前沿多模态智能 Welcome Gemma 4: Frontier multimodal intelligence on device

27 [AINews] 安静的愚人节 [AINews] A quiet April Fools

28 Granite 4.0 3B Vision：面向企业文档的紧凑型多模态智能 Granite 4.0 3B Vision: Compact Multimodal Intelligence for Enterprise Documents

29 Google Vids 获 Veo 和 Lyria 模型 AI 升级，支持可操控 AI 虚拟形象 Google Vids gets AI upgrade with Veo and Lyria models, directable AI avatars

30 [AInews] Gemma 4：最佳小型多模态开源模型，全面超越 Gemma 3 [AINews] Gemma 4: The best small Multimodal Open Models, dramatically better than Gemma 3 in every way

31 最新开源成果（第20期）：新增组织！新型模型！涵盖Nemotron Super、Sarvam、Cohere Transcribe等 Latest open artifacts (#20): New orgs! New types of models! With Nemotron Super, Sarvam, Cohere Transcribe, & others

32 Show HN：SkillCompass——从6个维度诊断并提升AI智能体技能 Show HN: SkillCompass – Diagnose and Improve AI Agent Skills Across 6 Dimensions

33 猎鹰感知 Falcon Perception

34 Holo3：突破计算机使用边界 Holo3: Breaking the Computer Use Frontier

35 Import AI 451：政治超级智能；谷歌的“心智社会”与机器人鼓手 Import AI 451: Political superintelligence; Google's society of minds, and a robot drummer

36 SpaceX试图说服FCC：亚马逊卫星部署高度不当 SpaceX tries to convince FCC that Amazon put satellites into wrong altitude

37 雌性激素引导雄性章鱼完成交配 Male octopuses guided through mating by female hormones

38 AI基准测试已失效，我们需要新的方案。 AI benchmarks are broken. Here’s what we need instead.

39 Ask HN：Canirun.ai 怎么了？ Ask HN: What Happened to Canirun.ai?

40 某安全聊天应用的加密技术形同虚设 A Secure Chat App’s Encryption Is So Bad It Is ‘Meaningless’

41 Axios供应链攻击采用针对性社会工程学手段 The Axios supply chain attack used individually targeted social engineering

42 “话匣子先生”是一款（性能较弱的）维多利亚时代伦理训练模型，可本地运行 Mr. Chatterbox is a (weak) Victorian-era ethically trained model you can run on your own computer

43 科学家培育出可同时产生死藤水、迷幻蘑菇和蟾蜍致幻成分的植株 Scientists Create Plant That Produces Ayahuasca, Shrooms, and Toad Psychedelics All At Once

44 Perplexity“隐身模式”被指为“骗局”，遭诉讼指控 Perplexity's "Incognito Mode" is a "sham," lawsuit says

45 Show HN：HN 浏览器扩展“评论猫头鹰”现可隐藏明显的“AI”内容 Show HN: The Comments Owl for HN browser extension now hides obvious "AI" items

46 TRL v1.0：紧跟领域发展的训练后库 TRL v1.0: Post-Training Library Built to Move with the Field

47 记者起诉美国联邦航空管理局，抗议为阻止拍摄移民海关执法局活动而设无人机禁飞区 Journalist Sues FAA Over Drone No Fly Zone Designed to Prevent Filming ICE

48 从 RTX 到 Spark：英伟达加速 Gemma 4 本地智能体 AI From RTX to Spark: NVIDIA Accelerates Gemma 4 for Local Agentic AI

49 四名宇航员现已注定奔赴月球 Four astronauts are now inexorably bound for the Moon

50 我在 Lenny 播客中关于智能体工程的对话亮点 Highlights from my conversation about agentic engineering on Lenny's Podcast

51 Show HN：Wazear —— 一款支持智能体相互审查的可视化 AI 编排工具 Show HN: Wazear – A visual AI orchestrator where agents review each other

52 规模化效率：NVIDIA与能源领军企业加速构建灵活供电的AI工厂，助力电网稳定 Efficiency at Scale: NVIDIA, Energy Leaders Accelerating Power‑Flexible AI Factories to Fortify the Grid

53 4月启动：GeForce NOW 将10款游戏带入云端 Press Start on April: GeForce NOW Brings 10 Games to the Cloud

01 使用Veo 3.1 Lite构建，我们最具成本效益的视频生成模型

02 Gemma 4：逐字节对比，性能最强的开源模型

03 微软推出三款新基础模型挑战AI对手

04 Gradient Labs 为每位银行客户提供 AI 客户经理

05 2026年3月发布的最新AI新闻

06 OpenAI收购热门创始人主导的商业脱口秀TBPN

08 在 Google Vids 中免费创建、编辑和分享视频

11 Codex 现为团队提供更灵活的定价方案

12 在 Gemini API 中平衡成本与可靠性的新方法

13 Moonlake：因果世界模型应具备多模态、交互性和高效性 —— 对话 Chris Manning 与 Fan-yun Sun

14 Reddit 的 r/programming 板块已禁止所有与 AI 大语言模型相关的内容

15 Anthropic 误删数千个 GitHub 仓库，试图撤回泄露的源代码

16 AI医疗工具层出不穷，实际效果究竟如何？

17 转向AI模型定制是架构上的必然要求

18 助力亚洲救灾团队将人工智能转化为实际行动

20 谷歌Vids应用现支持通过提示词控制虚拟形象

21 Claude Dispatch 与接口的力量

22 OpenAI 再启“支线任务”，收购科技主题脱口秀 TBPN

23 Meta的天然气消耗量足以供应整个南达科他州

24 五角大楼针对Anthropic的文化战争策略适得其反

25 我们正创建新的卫星图像地图以助力保护巴西森林。

26 欢迎 Gemma 4：设备端前沿多模态智能

28 Granite 4.0 3B Vision：面向企业文档的紧凑型多模态智能

29 Google Vids 获 Veo 和 Lyria 模型 AI 升级，支持可操控 AI 虚拟形象

30 [AInews] Gemma 4：最佳小型多模态开源模型，全面超越 Gemma 3

31 最新开源成果（第20期）：新增组织！新型模型！涵盖Nemotron Super、Sarvam、Cohere Transcribe等

32 Show HN：SkillCompass——从6个维度诊断并提升AI智能体技能

34 Holo3：突破计算机使用边界

35 Import AI 451：政治超级智能；谷歌的“心智社会”与机器人鼓手

36 SpaceX试图说服FCC：亚马逊卫星部署高度不当

37 雌性激素引导雄性章鱼完成交配

38 AI基准测试已失效，我们需要新的方案。

40 某安全聊天应用的加密技术形同虚设

41 Axios供应链攻击采用针对性社会工程学手段

42 “话匣子先生”是一款（性能较弱的）维多利亚时代伦理训练模型，可本地运行

43 科学家培育出可同时产生死藤水、迷幻蘑菇和蟾蜍致幻成分的植株

44 Perplexity“隐身模式”被指为“骗局”，遭诉讼指控

45 Show HN：HN 浏览器扩展“评论猫头鹰”现可隐藏明显的“AI”内容

46 TRL v1.0：紧跟领域发展的训练后库

47 记者起诉美国联邦航空管理局，抗议为阻止拍摄移民海关执法局活动而设无人机禁飞区

48 从 RTX 到 Spark：英伟达加速 Gemma 4 本地智能体 AI

49 四名宇航员现已注定奔赴月球

50 我在 Lenny 播客中关于智能体工程的对话亮点

51 Show HN：Wazear —— 一款支持智能体相互审查的可视化 AI 编排工具

52 规模化效率：NVIDIA与能源领军企业加速构建灵活供电的AI工厂，助力电网稳定

53 4月启动：GeForce NOW 将10款游戏带入云端