2026年04月17日

Gemini 3.1 Flash TTS：下一代富有表现力的人工智能语音技术

Gemini 3.1 Flash TTS：下一代富有表现力的人工智能语音技术 | 你本打算自己提交的 PR | 这家仿真初创公司想成为物理AI领域的Cursor

01 Gemini 3.1 Flash TTS：下一代富有表现力的人工智能语音技术

1
谷歌发布Gemini 3.1 Flash TTS语音模型

谷歌正式推出新一代文本转语音模型Gemini 3.1 Flash TTS，具备更强的可控性、表现力和音质，支持开发者、企业及普通用户构建更先进的AI语音应用。该模型已在Gemini API、Google AI Studio、Vertex AI及Google Vids中分阶段开放预览。

模型在Artificial Analysis的TTS排行榜上取得1211分Elo评分，位列“最具吸引力象限”，兼顾高质量与低成本。支持70多种语言，具备原生多说话人对话能力，用户可通过自然语言实现精细控制。

谷歌推出新一代TTS模型支持70多种语言与多说话人提供自然语言级语音控制

来源

2
Gemini 3.1 Flash TTS新增音频标签功能

Gemini 3.1 Flash TTS引入音频标签机制，允许用户通过自然语言指令直接控制语音风格、语速和表达方式。该功能嵌入文本输入中，提升语音生成的灵活性与表现力。

开发者可在Google AI Studio中体验该功能，结合可配置控件实现“导演式”创作。支持场景设定与角色指令，帮助AI在多轮对话中保持角色一致性。

新增音频标签控制语音风格支持场景与角色指令设定提升多轮对话一致性

来源

查看原文 → View Original →

02 你本打算自己提交的 PR The PR you would have opened yourself

1
OpenAI发布GPT-5模型

OpenAI正式推出GPT-5大语言模型，具备更强的推理能力与多模态理解功能。该模型在数学、编程和复杂问答任务中表现显著优于前代，支持更长上下文窗口与更高精度输出。GPT-5已集成至ChatGPT及企业API平台，面向开发者和商业用户开放。

模型训练采用新型强化学习对齐机制，提升安全性与事实一致性。OpenAI表示将分阶段部署，优先保障关键领域应用的稳定性。此举进一步巩固其在生成式AI领域的领先地位。

GPT-5推理能力显著增强支持多模态与长上下文处理已集成至ChatGPT与企业API

来源

2
Hugging Face推出模型迁移工具

Hugging Face发布新工具Skill与测试框架，帮助开发者将transformers库中的语言模型快速迁移至mlx-lm平台。该工具旨在辅助人工贡献者完成模型适配，而非完全自动化流程。

Skill提供标准化接口与验证脚本，确保迁移后的模型在mlx-lm中可立即使用。此举降低跨平台模型部署门槛，促进开源生态互通。团队强调工具定位为协作辅助，非替代人工审核。

支持transformers模型迁移至mlx-lm 提供测试框架与标准化接口定位为人工协作辅助工具

来源

3
代码智能体推动开源贡献变革

2026年起，代码智能体实现从补全到完整解决方案生成的跨越，能根据简要需求生成可直接运行的代码。英伟达CEO黄仁勋称此举使全球程序员数量从3000万跃升至10亿。

智能体可自动定位开源项目问题、修复并提交PR，极大提升贡献效率。但生成代码常忽视项目代码规范与可读性要求，导致实际合并率低。

代码智能体实现端到端开发显著提升潜在贡献者规模生成PR常不符合项目规范

来源

4
开源社区面临智能体贡献挑战

尽管代码智能体可自动生成PR，但多数提交忽略项目对代码可读性与架构一致性的要求。以transformers库为例，其设计强调人类可读性，模型文件需线性理解。

智能体常引入抽象层或风格偏差，违背项目哲学。维护者面临审核压力上升，需建立新机制筛选高质量自动化贡献。

智能体PR常不符合代码规范项目强调人类可读性设计维护者审核负担加重

来源

查看原文 → View Original →

03 这家仿真初创公司想成为物理AI领域的Cursor

1
Antioch获850万美元种子轮融资

Antioch是一家为机器人开发者构建仿真工具的初创公司，致力于缩小仿真与现实的差距。该公司今日宣布完成850万美元种子轮融资，估值达6亿美元，由A*和Category Ventures领投，MaC Venture Capital等多家机构跟投。

公司由Harry Mellsop与四位联合创始人于去年5月在纽约创立。其中两位创始人曾联合创办安全情报公司Transpose，并将其出售给Chainalysis。另外两位成员分别来自Meta Reality Labs和Google DeepMind。

Antioch专注机器人仿真工具开发融资用于缩小仿真与真实环境差距团队具备AI与机器人领域经验

来源

2
仿真技术助力物理AI数据训练

物理AI的发展受限于现实世界数据匮乏，企业需搭建模拟仓库或监控工厂与零工以训练机器人。仿真技术通过构建高保真虚拟环境，为机器人提供可扩展的训练空间，成为替代方案。

Antioch的目标是提升仿真环境的真实性，使机器人在虚拟环境中训练后能可靠应用于现实。其技术聚焦于让自主系统在仿真中感知与现实无异。

物理AI依赖大量现实数据训练仿真技术提供可扩展训练方案提升仿真真实性是核心挑战

来源

3
TechCrunch Disrupt 2026将举办

TechCrunch Disrupt 2026将于近期举行，预计吸引超1万名创始人、投资者和科技领袖参与。活动为期三天，包含250余场战术性会议，旨在促进投融资、人才招聘与创新合作。

该活动为初创企业提供展示平台，帮助创业者对接潜在投资者与合作伙伴。参与者可借此发现下一轮投资机会或突破性项目。

Disrupt 2026汇聚万名行业人士提供250场以上专业会议助力初创企业融资与合作

来源

查看原文 → View Original →

04 Canva的AI助手现在可调用多种工具为您设计

Canva升级AI助手支持文本生成可编辑设计
Canva推出新版AI助手，用户可通过文本提示生成可编辑设计，系统自动调用工具并生成多个选项。该助手采用图层结构，便于用户灵活调整设计细节，提升创作效率。

此次更新体现Canva将AI助手作为核心工作流的战略方向，此前已集成图像生成与网站生成功能。公司希望为用户提供从构思到输出的全流程自动化体验。

Canva AI助手支持文本生成设计采用图层结构便于用户编辑集成图像与网站生成功能

来源

Adobe与Figma推进AI助手整合工作流
Adobe本周发布Firefly AI助手，可调用旗下多款应用执行任务；Figma上月通过MCP服务器接入AI代理支持。两者均致力于实现跨工具自动化操作。

这些举措表明设计平台正加速融合AI能力，提升多工具协同效率。行业趋势显示，AI正从辅助工具向主动执行任务的代理角色演进。

Adobe推出Firefly AI助手 Figma接入AI代理支持设计平台加速AI整合

来源

Canva强调企业在最终编辑环节依赖其平台
Canva联合创始人Cliff Obrecht指出，尽管多家公司尝试整合工作流，企业仍倾向在Canva完成最终编辑与发布。该平台在协作与部署方面具备优势。

Canva与Anthropic、Google和OpenAI合作，支持外部AI系统调用其内容生成服务，但强调最终环节仍需回归平台处理。

企业依赖Canva完成最终编辑支持外部AI系统调用内容协作与部署能力成核心竞争力

来源

Canva企业业务增长显著但信息有限
Canva主要收入来自个人与小型团队，但其企业业务正呈现增长态势。公司未披露具体数据，仅表明该板块发展积极。

尽管缺乏详细财务信息，企业市场拓展反映Canva正从C端向B端延伸，增强在专业设计领域的竞争力。

企业业务呈现增长趋势主要收入仍来自个人用户向B端市场持续拓展

来源

查看原文 → View Original →

05 TD Cowen因估值将ServiceNow目标价下调至140美元 - Investing.com

1
标题： TD Cowen下调ServiceNow目标股价至140美元

TD Cowen将ServiceNow股票目标价从原水平下调至140美元，主要基于估值考量。此次调整反映机构对该公司当前股价相对其基本面估值偏高的判断。

该评级变动可能影响投资者对ServiceNow短期表现的预期，尤其在科技股估值普遍承压的背景下。

TD Cowen调低目标价估值过高成主因或影响市场情绪

来源

查看原文 → View Original →

06 谷歌现在重点整治恶意广告而非恶意行为者

Google发布2025年广告安全报告

Google在2025年共屏蔽83亿条违规广告，较2024年的51亿条显著上升。同期被暂停的账户数量却明显减少，表明其执法策略发生转变。

公司称这一变化得益于AI技术，尤其是Gemini模型的应用，使其能更早、更精准地识别违规内容。超过99%的违规广告在展示前即被拦截。

该趋势反映Google正从全面封禁账户转向逐条拦截广告，同时应对生成式AI被滥用于批量制造欺诈内容的挑战。

AI提升广告违规检测效率违规广告拦截量大幅上升账户封禁数量不增反降

来源

Google利用Gemini模型优化广告审核

Google表示其AI系统，特别是Gemini模型，在2025年帮助识别并阻止了绝大多数违规广告。这些模型能分析大规模广告活动中的异常模式。

通过AI自动化，Google实现了对政策违规内容的实时响应，并减少了对人工审核的依赖。此举提升了广告生态的整体安全性。

该技术应用也体现Google将AI深度整合至广告核心业务的战略方向，涵盖创建、监控与风险应对全流程。

Gemini模型主导广告审核 AI实现违规内容实时拦截技术整合提升平台安全性

来源

Google打击广告诈骗成效显著

2025年，Google共屏蔽6.02亿条与诈骗相关的广告，并暂停400万个关联账户。数据来自其年度广告安全报告。

在美国，Google移除超17亿条违规广告，暂停330万个账户，主要涉及广告网络滥用和虚假宣传。

在印度市场，屏蔽广告数达4.837亿条，同比翻倍，但账户暂停数下降至170万，显示执法更趋精准。

诈骗广告拦截量达6亿条美国违规广告处理量巨大印度广告屏蔽量翻倍

来源

Google Blocks Record 8.3 Billion Ads in 2025 Using AI Detection Systems
Google reported blocking 8.3 billion ads globally in 2025, a significant increase from 5.1 billion in 2024, marking the highest number in its history. Despite the surge in blocked ads, the company suspended far fewer advertiser accounts, suggesting a strategic shift in enforcement. This discrepancy is attributed to enhanced AI capabilities, particularly through Google’s Gemini models, which now detect and block policy-violating ads before they reach users.

The company stated that AI-driven systems prevented over 99% of violating ads from being displayed, improving both speed and accuracy. This precision allows Google to target individual ads rather than entire accounts, reducing the need for mass suspensions. The approach reflects a broader trend toward automated, real-time moderation across digital platforms.

Google also noted that scammers increasingly use generative AI to produce deceptive content at scale, making detection more challenging. In response, its Gemini models analyze patterns across large ad campaigns to identify and block malicious activity earlier. The integration of AI into advertising infrastructure enables faster adaptation to emerging threats and policy violations.

Key Takeaways:
Google blocked 8.3 billion ads in 2025 using AI detection
Fewer advertiser accounts suspended due to precise AI enforcement
AI models prevent 99% of violating ads before user exposure

Source: Original Article

Google Reports 602 Million Scam Ads Blocked and 4 Million Accounts Suspended in 2025
Google identified and blocked 602 million scam-related ads and suspended 4 million advertiser accounts linked to fraudulent activity in 2025. These figures were part of its broader ad safety efforts, which included removing over 1.7 billion ads and suspending 3.3 million accounts in the U.S. alone. Common violations included ad network abuse, misrepresentation, and sexual content.

In India, Google’s largest market by users, 483.7 million ads were blocked—nearly double the previous year—while account suspensions dropped to 1.7 million from 2.9 million. This decline in suspensions despite increased ad blocking highlights the effectiveness of AI in targeting specific ads rather than penalizing entire accounts. Trademark violations, financial services scams, and misleading claims were among the top categories.

The data underscores the growing sophistication of online scams and Google’s reliance on AI to counter them. By focusing on ad-level enforcement, the company aims to reduce collateral damage to legitimate advertisers. This strategy aligns with industry-wide efforts to balance security with advertiser accessibility.

Key Takeaways:
Google blocked 602 million scam ads in 2025
U.S. saw 1.7 billion ads removed and 3.3 million accounts suspended
India recorded 483.7 million blocked ads with fewer account bans

Source: Original Article

查看原文 → View Original →

07 认识量子小子 Meet the Quantum Kid

科学家以儿童视角讲解量子物理
摘要：
科学家通常被建议用儿童能理解的语言解释复杂研究，而量子力学尤其困难。9岁男孩Kai Moskvitch作为“量子小子”参与科普，其与母亲Katia Moskvitch共同主持的播客节目《The Quantum Kid》已突破10万订阅，并获Webby奖提名。

该播客源于Kai自幼对科学视频和编程的浓厚兴趣，常向母亲提出关于宇宙起源和量子物理的深刻问题。Katia作为理论物理学家，发现难以用简单方式回应，遂提议以播客形式深入解答，Kai欣然同意。

节目每月更新一集，得益于Katia在学术界与产业界的人脉资源。例如，Kai曾采访提出著名量子算法的Peter Shor及研究时间旅行的物理学家Scott Aaronson。Aaronson观看后表示其子女也产生浓厚兴趣，印证了节目面向亲子共学的定位。

儿童参与科普节目获广泛关注亲子共学成科学传播新趋势量子物理内容实现通俗化表达

来源

查看原文 → View Original →

08 使用 Sentence Transformers 训练和微调多模态嵌入与重排序模型

研究者微调Qwen3-VL-Embedding-2B用于文档检索

研究者通过微调Qwen/Qwen3-VL-Embedding-2B模型，提升其在视觉文档检索任务中的表现。该任务要求根据文本查询从大量文档图像中检索相关页面，需理解布局、图表和表格等复杂结构。

微调后模型在评估数据上NDCG@10得分从基础模型的0.888提升至0.947，优于所有已测试的同类模型，包括参数量达其4倍的模型。

微调显著提升文档检索性能模型理解布局图表能力增强性能超越更大规模模型

来源

通用多模态模型需针对特定任务微调

通用多模态嵌入模型如Qwen/Qwen3-VL-Embedding-2B虽在多种语言和任务中表现良好，但因其广泛适用性，难以在特定任务上达到最优效果。

视觉文档检索要求模型理解文档结构，与图像-文本匹配等任务差异显著。微调可使模型学习领域特有模式，提升任务适配性。

通用模型难以满足特定需求微调增强任务针对性领域数据提升模型表现

来源

微调方法适用于多模态嵌入与重排模型

文章提供使用Sentence Transformers训练和微调多模态嵌入与重排模型的实践指南，涵盖模型、数据集、损失函数等关键组件。

以视觉文档检索为例，展示了从数据准备到训练评估的完整流程，强调微调在提升模型性能中的核心作用。

提供完整微调技术路径涵盖多模态模型训练要素强调实践可操作性

来源

查看原文 → View Original →

09 Meta因内存短缺上调Quest 3和Quest 3S售价

Meta上调Quest 3系列头显售价

Meta宣布自4月19日起上调Quest 3系列头显价格，其中Quest 3S 128GB版本涨价50美元至349.99美元，256GB版本涨至449.99美元。Quest 3基础款价格上调100美元至599.99美元。此次调价未说明具体原因，但可能涉及供应链成本上升或市场策略调整。

此次涨价可能影响消费者购买意愿，尤其在竞争激烈的VR市场环境中。Meta此前通过补贴硬件推动生态扩张，此次提价或反映其盈利压力加大。

Quest 3S两款型号涨价50美元 Quest 3涨价100美元至599.99美元调价自4月19日起生效

来源

查看原文 → View Original →

10 在受限的公共部门环境中实现AI的落地应用

1
标题： 公共部门加速采用专用小型语言模型

摘要：
人工智能热潮已波及多个行业，公共部门面临加快AI应用的压力。然而，政府机构在安全、治理和运营方面存在独特限制，与商业组织差异显著。

专用小型语言模型（SLMs）因其轻量化和高可控性，成为公共部门落地AI的可行路径。这类模型可在本地部署，降低数据泄露风险，符合政府合规要求。

详细信息有限，但趋势表明公共部门正探索更适配自身环境的AI解决方案。

公共部门面临AI应用压力专用SLM适配政府限制本地部署提升安全性

来源

查看原文 → View Original →

11 Runway CEO称AI可助好莱坞以一部1亿美元大片的成本制作50部电影

1
Runway CEO建议用AI制作50部低成本电影

Runway联合创始人兼CEO Cristóbal Valenzuela在Semafor世界经济会议上提出，好莱坞应将原本用于一部1亿美元大片的预算，转而制作50部同等视觉质量的AI辅助电影，以提升成功概率。他认为当前电影行业依赖少数高成本项目，而AI可降低制作门槛，实现规模化内容产出。

这一观点挑战了传统电影作为艺术投资的逻辑，强调通过数量提高爆款几率。Valenzuela承认AI进入创意领域存在争议，但称公众对AI能力的认知正在快速转变，早期质疑多源于误解与恐惧。

Runway正开发AI世界模型，帮助创作者更高效完成工作。公司已与多家制片方合作，其技术已实际降低部分项目的制作成本。

Runway CEO提议改变电影投资策略 AI可降低电影制作成本提升产量行业对AI态度正从恐惧转向接受

来源

2
首部AI制作院线电影即将上映

即将上映的《比特币：杀死中本聪》预算7000万美元，将成为全球首部由AI技术主导制作的院线级电影。该片由Runway技术支持，标志着AI在高端影视制作中的实际应用迈出关键一步。

影片采用Runway的AI世界模型进行视觉生成与后期处理，显著压缩传统制作周期与人力成本。尽管未披露具体AI参与环节比例，但项目被视为AI重构电影工业流程的重要试验。

此举可能推动更多制片方尝试AI辅助制作，尤其在视觉特效与场景构建环节。行业关注其市场表现与观众接受度，以评估AI电影的长期可行性。

首部AI院线电影即将面世 Runway技术支撑电影视觉制作项目测试AI在高端影视中的应用

来源

查看原文 → View Original →

12 语境鸿沟：AI系统为何在现实世界中失效雷·贝哈里

1
全球零售商部署AI代理优化定价

该零售商在测试中成功利用AI系统分析历史销售、库存及市场信号，实现近实时定价建议，表现优异，具备推广潜力。

然而系统接入实际运营后，出现跨区域定价不一致、忽略合同限制、重复推荐促销商品等问题，部分建议违反内部政策。

系统本身运行正常，但难以适应真实企业流程，需人工审核输出结果，限制规模化应用。

AI测试表现优异实际部署暴露流程冲突需人工干预才能推广

来源

2
企业AI失败主因非模型能力不足

企业常通过优化模型、提示或检索技术应对AI系统失效，但这些措施未能解决根本问题。

真正瓶颈在于系统无法识别审批状态、区分可用数据与合规流程，忽视政策与操作约束。

Gartner预测，2026年前60%的AI项目将因缺乏就绪数据而失败，核心缺失是环境适应力而非智能水平。

模型性能非主要障碍系统缺乏企业流程理解数据就绪度决定项目成败

来源

1
Global Retailer Deploys AI Pricing Agent That Fails in Live Operations

A global retailer implemented an AI agent to optimize pricing using historical sales, inventory, and market data. During testing, the system delivered strong performance, generating near real-time pricing recommendations with high accuracy. These results justified a broader rollout across live operations.

Once deployed, the system began producing inconsistent pricing across regions and overlooked contractual obligations. It recommended actions on products already under active promotions and sometimes violated internal policies. Although the model functioned as designed, its outputs required manual review before implementation, limiting scalability.

The core issue lies not in model performance but in the system’s inability to operate within real-world enterprise constraints. It lacks awareness of approval workflows, policy boundaries, and contextual data usability. Gartner predicts 60% of AI projects will fail by 2026 due to unready data and poor integration.

Key Takeaways:
AI models perform well in testing but fail in live enterprise environments
System outputs require human review due to policy and workflow conflicts
Enterprise context integration is more critical than model improvement

Source: Original Article

2
Enterprise AI Scaling Limited by Lack of Contextual Awareness

Many AI systems demonstrate strong performance in controlled settings but struggle when integrated into live enterprise workflows. The primary challenge is not model accuracy but the inability to understand organizational policies, approval states, and usable data. Teams often respond by refining models or prompts, which fails to address the root cause.

The missing element is contextual intelligence—the capacity to operate within real-world business constraints. Systems may process technically correct data but lack awareness of whether that data aligns with current processes or legal agreements. This gap leads to unreliable outputs despite high technical performance.

Gartner forecasts that 60% of AI projects will be abandoned by 2026 without AI-ready data and proper integration. Success requires more than advanced algorithms; it demands systems that understand and adapt to enterprise environments.

Key Takeaways:
AI success depends on contextual understanding not just model performance
Enterprise workflows require systems that recognize policy and approval constraints
Most AI failures stem from integration gaps not technical flaws

Source: Original Article

查看原文 → View Original →

13 无需太空装备——卡普空新作《PRAGMATA》发售当日即登陆GeForce NOW

GeForce NOW上线PRAGMATA云游戏

NVIDIA旗下云游戏平台GeForce NOW于PRAGMATA全球发布当日同步上线该游戏，玩家无需高性能设备即可通过云端串流体验这款科幻动作冒险游戏。游戏背景设定在近未来的月球基地，支持多设备即时访问。

该服务降低了高端游戏的硬件门槛，使更多用户能在手机、平板或低配电脑上流畅运行大型3A作品。此举进一步推动云游戏普及，增强NVIDIA在游戏流媒体领域的竞争力。

GeForce NOW同步上线PRAGMATA 支持多设备云端串流游戏无需高端硬件即可体验

来源

查看原文 → View Original →