2026年05月04日 - AI资讯速览

01 哈佛研究显示：AI急诊诊断准确率高于两名人类医生

标题：
OpenAI o1模型在急诊诊断中准确率达67% 优于人类医生

摘要：
哈佛大学医学院与贝斯以色列女执事医疗中心研究团队在《科学》期刊发表研究，评估OpenAI o1与4o模型在急诊诊断中的表现。研究基于76例真实急诊病例，对比AI与人类主治医师的诊断准确性。

o1模型在初始分诊阶段准确率达67%，高于两名人类医生的55%与50%。AI在信息有限、决策紧迫的场景下表现尤为突出。研究未对电子病历数据进行预处理，确保测试条件与临床实际一致。

该研究显示大语言模型在医疗诊断中具有潜在优势，尤其在资源紧张或信息不完整环境下。未来或可辅助医生提升急诊效率与准确性。

o1模型急诊诊断准确率超人类医生 AI在信息有限场景表现更优研究基于真实未处理电子病历数据

来源

标题：
TrainForgeTester发布v0.1.0支持多轮AI代理场景测试与工具调用验证

摘要：
TrainForgeTester是一个开源AI代理场景测试框架，版本v0.1.0，用于评估AI代理在企业特定场景中的行为准确性。该工具支持多轮对话测试，可验证工具调用、参数传递及执行顺序是否符合预期。

该框架允许用户基于自定义场景模式创建测试用例，检测错误操作、遗漏步骤或参数错误等问题。支持严格或无序工具执行检查，并能追踪模型、提示或工具变更后的回归问题。

项目下一阶段将开发“场景生成器”，从客服日志、代理轨迹等历史数据中自动生成可测试场景，提升测试构建效率与确定性。

支持多轮AI代理行为验证检测工具调用与参数错误基于企业数据生成测试场景

来源

标题：
Artisan公司使用KC Green创作的“This is fine”漫画推广AI销售助手Ava

摘要：
AI初创公司Artisan在地铁站投放广告，使用了艺术家KC Green于2013年创作的网络漫画“This is fine”中的图像。广告中狗的形象被修改为“我的销售管线着火了”，并推广其AI销售开发代表（BDR）产品Ava。

Green在Bluesky平台表示，该使用未经其授权，属于“被盗用”，并呼吁公众破坏相关广告。Artisan回应称尊重Green及其作品，并已安排直接沟通。

该事件再次引发对AI公司使用网络迷因及艺术家作品版权问题的争议。此前Artisan曾因“停止雇佣人类”广告语引发舆论批评。

Artisan未经授权使用网络迷因图像艺术家KC Green谴责作品被盗用 AI公司广告策略持续引发争议

来源