基本信息
文件名称:蚂蚁代码大模型的评测实践.docx
文件大小:2.8 MB
总页数:44 页
更新时间:2025-06-02
总字数:约3.47千字
文档摘要
蚂蚁代码大模型的评测实践
申敏蚂蚁集团
演讲嘉宾
申敏
蚂蚁集团-测试开发专家
蚂蚁集团测试开发专家,研究方向:大模型在代码领域的评测技术。
长期投入蚂蚁支付、账务、计收费等业务领域质量保障工作,熟悉企业级编码风格及要求,当前,负责蚂蚁百灵大模型CodeFuse系列的代码能力评测。
1.前言
目
目录
CONTENTS
3.代码大模型的评测方法
4.代码大模型的评估基准
5.代码大模型多任务评估
6.展望
PART01
前言
前言:模型发展与模型评估
2023年大模型呈爆发式增长,截至2023年7月,中国累计有130个大模型问世,国外大模型