蚂蚁代码大模型的评测实践.docx - 创享文库

基本信息

文件名称：蚂蚁代码大模型的评测实践.docx

文件大小：2.8 MB

总页数：44 页

更新时间：2025-06-02

总字数：约3.47千字

文档摘要

蚂蚁代码大模型的评测实践

申敏蚂蚁集团

演讲嘉宾

申敏

蚂蚁集团-测试开发专家

蚂蚁集团测试开发专家，研究方向：大模型在代码领域的评测技术。

长期投入蚂蚁支付、账务、计收费等业务领域质量保障工作，熟悉企业级编码风格及要求，当前，负责蚂蚁百灵大模型CodeFuse系列的代码能力评测。

1.前言

目

目录

CONTENTS

3.代码大模型的评测方法

4.代码大模型的评估基准

5.代码大模型多任务评估

6.展望

PART01

前言

前言：模型发展与模型评估

2023年大模型呈爆发式增长，截至2023年7月，中国累计有130个大模型问世，国外大模型