16.1.4机器翻译的基本方法
●基于中间语言方法的优缺点:
●优点:中间语言的设计可以不考虑具体的翻译语言对,因此,该方法尤其适合多语言之间的互译。
●缺点:如何定义和设计中间语言的表达方式,以及如何进行维护并不是一件容易的事情,中间语言在语义表达的准确性、完整性等很多方面,都面临若干困难。
913
16.1.4机器翻译的基本方法
●基于实例的翻译方法(Example-based)
●1984年:由日本学者长尾真教授提出
●方法:输入语句→匹配和修改相似实例→翻译结果
●代表系统:ATR-MATRIX(ATR,Japan)
●资源:大规模翻译实例库
双语语料库语义词典双语词典
待翻译句子相似实例检索译文重组与调整目标语言译文
914
16.1.4机器翻译的基本方法
●基于实例方法的优缺点:
●优点:不要求源语言句子必须符合语法规定,翻译机制一般不需要对源语言句子做深入分析。
●缺点:两个不同的句子之间的相似性(包括结构相似性和语义相似性)往往难以把握,尤其在口语中,句子结构一般比较松散,成分冗余和成分省略都较严重,这更增加了分析句子与事例句子的比较难度。另外,系统往往难以处理事例库中没有记录的陌生的语言现象,而且当事例库达到
一定规模时,其事例检索的效率较低。
915
第16章.1机器翻译
√16.2统计机器翻译
●16.3神经机器翻译翻译●16.4译文质量评价
916
16.2统计机器翻译
双语平行语料库
基于数据驱动的模型学习
翻译模型
源语言测试数据
解码器
目标语言译文
917
他喜欢北京
HelikesBeijing.
他来自日本。
HeisfromJapan.
他在东京居住。
HelivesinTokyo.
日本临近中国。
aasnearChina.
日本的首都是东京。
ThecapitalofJapanisTokyo.
中国是亚洲国家。
ChinaisanAsianCountry·
北京是中国的首都。
BeijingisthecapitalofChina.
北京位于中国的北方。
BeijingislocatedintheNorthofChina.
……
……
统计机器翻译
16.2
918
口1990年IBM的PeterF.Brown等人在ComputationalLinguistics上发表论文“统计机器翻译方法”[Brown,1990];
□1993年他们发表在该杂志发表论文“统计机器翻译的数学:参数估计”[Brown,1993],两篇文章奠定了统计机器翻译的理论基础。
口噪声信道模型:一种语言T由于经过一个噪声信道而发生变形,从而在信道的另一端呈现为另一种语言S(信道意义上的输出,翻译意义上的源语言)。翻译问题实际上就是如何根据观察到的S,恢复最为可能的T问题。
噪声信道
TS
16.2统计机器翻译
919
源语言句子:S=s1=S?Sz…Sn
目标语言句子:T=ti=t?t?…tm
贝叶斯公式:
T=argmaxP(T)×P(S|T)
T
16.2统计机器翻译
语言模型
Languagemodel,LM
翻译模型
Translationmodel,TM
920
个解码器S
T=argp(T|S)
统计翻译中的三个关键问题:
(1)估计语言模型概率p(T);
(2)估计翻译概率p(SIT);
(3)快速有效地搜索T使得p(T)×p(S|T)最大。
T
max
16.2统计机器翻译
翻译模型S
p(SIT)
语言模型
p(T)
921
◆估计语言模型概率p(T)
给定句子:T=t1=t?t2?…tm
句子概率:P(T)=P(t?)P(t?|t?)…P(tm|t?t?…tm-1)
n-gram或神经语言模型问题,不再赘述。
16.2统计机器翻译
922
●翻译概率p(S|T)的计算
●关键问题是怎样定义目标语言句子中的词与源语言句子中的词之间的对应关系。
●假设英语(T)与汉语(S)的翻译对:
TSheisverykindtoeveryone.
S她对所有的人都很和善。
16.2统计机器翻译
923
不妨,我们用A(S,T)表示源语言句子S与目标语言