2026年05月04日

哈佛研究显示:AI急诊诊断准确率高于两名人类医生

哈佛研究显示:AI急诊诊断准确率高于两名人类医生 | Show HN:TrainForgeTester – 面向AI代理的确定性场景测试工具 | “This is fine”创作者指控AI初创公司盗用其艺术作品
分类筛选:

01 哈佛研究显示:AI急诊诊断准确率高于两名人类医生

标题:
OpenAI o1模型在急诊诊断中准确率达67% 优于人类医生

摘要:
哈佛大学医学院与贝斯以色列女执事医疗中心研究团队在《科学》期刊发表研究,评估OpenAI o1与4o模型在急诊诊断中的表现。研究基于76例真实急诊病例,对比AI与人类主治医师的诊断准确性。

o1模型在初始分诊阶段准确率达67%,高于两名人类医生的55%与50%。AI在信息有限、决策紧迫的场景下表现尤为突出。研究未对电子病历数据进行预处理,确保测试条件与临床实际一致。

该研究显示大语言模型在医疗诊断中具有潜在优势,尤其在资源紧张或信息不完整环境下。未来或可辅助医生提升急诊效率与准确性。

o1模型急诊诊断准确率超人类医生 AI在信息有限场景表现更优 研究基于真实未处理电子病历数据
来源

查看原文 →

02 Show HN:TrainForgeTester – 面向AI代理的确定性场景测试工具

标题:
TrainForgeTester发布v0.1.0支持多轮AI代理场景测试与工具调用验证

摘要:
TrainForgeTester是一个开源AI代理场景测试框架,版本v0.1.0,用于评估AI代理在企业特定场景中的行为准确性。该工具支持多轮对话测试,可验证工具调用、参数传递及执行顺序是否符合预期。

该框架允许用户基于自定义场景模式创建测试用例,检测错误操作、遗漏步骤或参数错误等问题。支持严格或无序工具执行检查,并能追踪模型、提示或工具变更后的回归问题。

项目下一阶段将开发“场景生成器”,从客服日志、代理轨迹等历史数据中自动生成可测试场景,提升测试构建效率与确定性。

支持多轮AI代理行为验证 检测工具调用与参数错误 基于企业数据生成测试场景
来源

查看原文 →

03 “This is fine”创作者指控AI初创公司盗用其艺术作品

标题:
Artisan公司使用KC Green创作的“This is fine”漫画推广AI销售助手Ava

摘要:
AI初创公司Artisan在地铁站投放广告,使用了艺术家KC Green于2013年创作的网络漫画“This is fine”中的图像。广告中狗的形象被修改为“我的销售管线着火了”,并推广其AI销售开发代表(BDR)产品Ava。

Green在Bluesky平台表示,该使用未经其授权,属于“被盗用”,并呼吁公众破坏相关广告。Artisan回应称尊重Green及其作品,并已安排直接沟通。

该事件再次引发对AI公司使用网络迷因及艺术家作品版权问题的争议。此前Artisan曾因“停止雇佣人类”广告语引发舆论批评。

Artisan未经授权使用网络迷因图像 艺术家KC Green谴责作品被盗用 AI公司广告策略持续引发争议
来源

查看原文 →