最近,昆仑万维在代码智能体领域扔下了一颗重磅炸弹!他们正式开源了自主研发的32B参数规模代码智能体基座模型 Skywork-SWE-32B。这款模型不仅在软件工程任务中表现出色,还在代码修复能力上达到了业界顶尖水平。
Skywork-SWE-32B 在 SWE-bench Verified 基准测试中取得了38.0% 的 pass@1 准确率,直接刷新了 Qwen2.5-Coder-32B 系列模型的最佳记录。更令人惊喜的是,通过引入测试时扩展技术,其准确率进一步飙升至47.0%,成功超越同参数规模下的其他开源模型,甚至缩小了与闭源模型之间的性能差距。
为了训练出如此强大的模型,昆仑万维团队构建了一个超大规模的可验证数据集,包含超过1万个 GitHub 仓库任务实例。他们还设计了一套三阶段自动化流程:从筛选15万个开源仓库信息,到最终生成8,209条高质量验证通过轨迹,每一步都确保了数据的质量和可靠性。
如果你对 Skywork-SWE-32B 感兴趣,可以访问以下链接:
博客地址
https://quixotic-sting-239.notion.site/eb17f379610040ceb54da5d5d24065bd
HuggingFace 地址
https://huggingface.co/Skywork/Skywork-SWE-32B
划重点:
Skywork-SWE-32B 在 SWE-bench Verified 基准上的表现刷新了32B 开源模型的最佳成绩。
测试时扩展技术让模型准确率提升至47.0%,大幅缩小与闭源模型的差距。
昆仑万维通过自动化流程构建了超1万条高质量 SWE 任务数据集。
[hhw123pingdao]
温馨提示:
- 请注意,下载的资源可能包含广告宣传。本站不对此提供任何担保,请用户自行甄别。
- 任何资源严禁网盘中解压缩,一经发现删除会员资格封禁IP,感谢配合。
- 压缩格式:支持 Zip、7z、Rar 等常见格式。请注意,下载后部分资源可能需要更改扩展名才能成功解压。
- 本站用户禁止分享任何违反国家法律规定的相关影像资料。
- 内容来源于网络,如若本站内容侵犯了原著者的合法权益,可联系我们进行处理,联系微信:a-000000
📝留言定制 (0)