基本信息
文件名称:人工智能与机器翻译【共享精品-ppt】(共87张PPT).pptx
文件大小:14.57 MB
总页数:87 页
更新时间:2025-04-02
总字数:约3.1万字
文档摘要

人工智能与机器翻译

——单词与词组分析

主讲:杨宪泽

第5章单词与词组的处理与分析

第5章单词与词组的处理与分析

对于机器翻译研究来说,本章的第一任务是要建立语言的机器词典,

这一机器词典是多语言的。例如各自的藏,英,汉语机器词库。

单词与词组的处理与分析,对于汉语来说,首先必须要进行单词的

自动切分。自动切分歧义部分是解决的难点,不但可能用到规则推理,

而且还可能用到语法分析,语义用分析,更详细的过程可以结合第六章

等一起研究。

词语分类和兼类的分析与处理是本章研究的又一重点。

本章的最后将研究词处理的一些细节问题。

第5章单词与词组的处理与分析

5.1机器词典概述

人工翻译离不开词典,当然,机器翻译也离不

开机器词典。机器词典也被称为电子词典,简称词

典。机器词典的作用在机器翻译中是最重要的,因

为做任何机器翻译工作都必须通过查机器词典来得

到相关的翻译元素---单词和词组。如何有效的组织、

建立机器词典,如何更好地利用机器词典中包含的

各种知识,是一个值得深入研究的课题。

第5章单词与词组的处理与分析

5.1.1基于分析和转换的机器翻译方法

机器词典的作用:

(1)机器词典的好坏是更好的实现实用化机器翻译系统软件的障碍之一。现有的一

些机器翻译系统在达到实用化阶段时往往因为机器词典规模的限制阻碍了性能的进一步

提高。因为语言词汇是一个开放的集合,无论建立多么庞大的词典,都不可能穷举所有

的词。而且,随着时间的推移,还会出现大量的新词。因此,只有尽何能的扩充机器词

典的规模,才可能使机器翻译系统更实用,更会被更多的行业、更多的人所接受。

(2)机器词典是机器翻译的质量的关键,要达到机器翻译的全自动、高质量,就必

须有一部信息丰富、易于使用的机器词典。一部好的机器词典不仅要有庞大的数量,而

且要有尽可能高的质量,只要这样,V才可能是机器翻译的质量更高。V

(3)电子词典(机器词典)不仪可以用于机器翻译,而且也可以用在自然语言理解、自

然语信处理诸多方面。因此,电子词典(机器词典)是大规模知识工程的基础工作,它可以

为知识系统提供一个基本的知识源。

第5章单词与词组的处理与分析

对于机器翻译系统来说,为了适应不同专业领域的翻译要求,需要配有大量的专业词汇。因

此,机器翻译系统的词典又可以分为通用词典和专业词典两部分。如专门的缩略语词典、特殊字词

典等等。还可以把通用词典再细分为名词词典、动词词典、成语词典等等。

机器词典的组织机构对于提高词语的检索速度是非常主要的。一定的组织结构形式和相

应的算法相配合,可以节约存储空间,提高检索速度,从而提高机器翻译系统的整体翻译速

度。

机器词典从存储形式来看,可以分为定长字段型、变长字段型和定变长混合型三种类型;从

索引格式看,可以分为一级索引和多级索引等等。

词语的长短是不同的,例如,某些常用词的信息特别丰富,/书本词典可以占满几页,而有

一些词语却只要一行。这样,如果所有词语都使用定长字段,则必须依据最长词语确定字段

长度,/而相当多的短词语将浪费巨大的存储空间。所以,一般情况下一条词语的有关信息的

存储都采用变长形式,这可以用链接技术实现。

第5章单词与词组的处理与分析

5.2自动分词

汉语自动分词是我国计算机科学研究的重要课题之一,它是自然语言理解、

自动翻译、电子词典等信息处理的基础性工件。所谓分词,就是要把一句话,一

篇文章甚至一部著作中的词语逐个逐个的切分出来。汉语不象拼音文字那样有自

然切分标志,而且词语长短不,词语的定义也不统一,语言学中对词的定义多

种多样,造成切分的多样性,这也自然给自动分词的同一性带来很大困难。汉语

中词语本身的词素、词、词组无明显的区分界限,没有一个统一的标准,许多东

西都是凭经验和语感来划分。.这项工作如果全部交给计算机来作,就没有那么简

单了。

尽管计算机自动分词在诸多方面存在着许多困难,但是由于自动分词是许多应用

工作的第一步(也是自动翻译的第二步),这就促进了研究的持续不断,提出了不少方

法,它们各有优缺点,也可能是基于特定环境的。

第5章单词与词组的处理与分析

5.2.1典型的自动分词方法

5.2.1.1正向最大匹配法和逆向最大匹配法

正向最大匹配法是最早提出的自动分词方法,它的基本思想是先取一句话的前六个字查