2025大语言模型翻译质量评测报告.pdf

基本信息

文件名称：2025大语言模型翻译质量评测报告.pdf

文件大小：376.06 KB

总页数：10 页

更新时间：2025-06-24

总字数：约4.99千字

文档摘要

北京第二外国语学院

大语言模型翻译质量评测报告（简版）

BISU-AiTQA（v1.0）

BISU-AiTQA（v1.0）面向国内外的六个大模型ChatGPT、

Claude、Gemini、Grok、DeepSeek和通义千问，从当代文学、党

政文献和外事新闻三个领域，在汉译英、日、俄、法、阿五个语

种开展翻译质量评测研究。突破国际现有评测以英语为核心的现

状，构建了以汉语为核心，覆盖多语种、多领域的大语言模型翻

译质量评测体系，具有开创性意义，是促进中外人文交流，提升

汉语全球表达力的积极探索。同时，该评测体系亦可广泛应用于

翻译教学、语言测试等智能教学场景。

1.研究背景

1.1大语言模型翻译的发展现状

大语言模型的发展速度超乎想象，在翻译领域更是取得了前

所未有的进展。从ChatGPT到Claude、Gemini，再到国内

的通义千问、DeepSeek等模型，它们在多个语种对的翻译任务

中已达到接近人类译者的水平，极大提升了译文的语言自然

度、术语一致性与语篇连贯性等，正在深刻改变翻译行业、教

育方式与研究范式。

1.2核心挑战与评测需求

然而，从翻译学和语言学的角度审视，大语言模型在翻译任

务中依然存在诸多挑战：

1.复杂句式处理能力不足：在处理嵌套结构或长距离依存关

系的句子时，模型往往无法准确解析其语法层级和语义关

系；

2.专业领域与文化负载问题：在专业领域，特别是文化负载

较重的文本中，模型常缺乏足够的术语知识与文化理解，

导致信息传递出现偏差；

3.汉语翻译表现差距：与英文翻译任务相比，模型在处理汉

语翻译时的整体表现仍存在明显差距。

这些问题使我们迫切需要构建一个系统化、可解释的评测机

制，以全面揭示大模型在多语翻译任务中的真实能力和潜在短

板。

1.3机器翻译评测的发展历程

机器翻译质量评估并非新兴课题。自2006年ACL设立

WMT以来，BLEU、METEOR、TER等自动指标被广泛应用

于机器翻译系统性能评估。然而，这些传统指标主要基于词面

重合和形式对齐，难以有效捕捉译文的深层语义特征。

近年来，随着大语言模型的兴起，评测重心逐步从传统统计机

器翻译转向类人翻译能力评估，涌现出COMET、BERTScore等

基于深层语义的评估指标，能够更有效地模拟人类对语义准确性

和自然度的判断，进一步推动了翻译评测领域的发展。

1.4现有评测体系的局限性

现有评测体系仍存在三个核心问题：

?汉语地位边缘化：汉语在国际评测中仍处于边缘地位，主

流评测多围绕英语展开，缺乏以汉语为源语言的评测资源；

?文本类型单一化：文本类型过于集中在通用语料，缺乏垂

直领域的专业文本，无法有效评估模型在复杂专业领域中

的翻译能力；

?评测视角局限性：大多数评测仍依赖单一视角，难以从语

言本体出发进行系统性评估。即便引入了MQM等多维框

架，也常面临领域适配性弱、语言学解释力不足等问题。

2.研究内容

2.1总体设计框架

为解决上述问题，本项目从“汉语主导、多语种、多领域”

出发，构建了一个系统的翻译评测体系：

?语料维度：覆盖当代文学、党政文献与外事新闻三大领

域，分别代表表达性、规范性与传播性三种语体特征；

?语种维度：设置英、日、法、俄、阿五种目标语言，实现

“大语种+小语种”的组合结构；

?模型维度：涵盖Claude-3-7-sonnet、Gemini-1.5-

pro-latest、GPT-4o、Grok-3、Qwen-Plus、DeepSeek-R1等

六个中