OpenAI发布了SWE-Lancer基准测试,用于评估模型在真实世界自由软件工程工作的性能。该基准测试包含1400多个来自Upwork和Expensify的任务,总支付金额达100万美元。SWE-Lancer要求模型评估代码补丁和管理决策,从多个选项中选择最佳提案,更真实地反映工程团队的工作。其优势在于使用端到端测试,模拟用户从问题识别到补丁验证的整个工作流程。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验