OpenAI推出开源医疗大模型测试评估集HealthBench,由262名全球医生设计,包含48562个评分标准,采用多轮对话测试方式,更贴近真实医疗场景。该评估集推动了AI系统在医疗领域的性能提升,如GPT-4.1nano在成本降低25倍的情况下性能超越GPT-4o。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验